GPT-4o

Generative Pre-trained Transformer 4 omni (GPT-4o)
	программное обеспечение
Generative Pre-trained Transformer 4 omni (GPT-4o)
	Файл:Gpt4o.png
Тип	мультимодальное обучение, большая языковая модель, генеративный предобученный трансформер, foundation model
Языки интерфейса	многоязычный, в том числе русский
Первый выпуск	13 мая 2024
Читаемые форматы	текст, фото, видео, аудио
Состояние	активное
Лицензия	Проприетарная
Сайт	openai.com

Не следует путать с GPT-4.

«GPT-4o» (англ. Generative Pre-trained Transformer 4 omni) — генеративный предобученный трансформер, разработанный OpenAI. Он был представлен Мирой Мурати 13 мая 2024 года, в тот же день произошёл релиз нейросети. Чат-бот получил поддержку мультимодальности и стал быстрее обрабатывать информацию, благодаря чему у него появились уникальные функции — восприятие информации различных типов, ответ на неё в течение времени, сопоставимым с временем ответа обычного человека. GPT-4o дешевле на 50 % и работает значительно быстрее предшественника, GPT-4 Turbo^[1]^[2].

Описание[править]

Как сообщается на тематической странице на официальном сайте компании, GPT-4o принимает в качестве ввода любую комбинацию текста, аудио, изображения и видео и генерирует любую комбинацию текстовых, аудио и изображений выходных данных. Он может отвечать на аудио-ввод всего за 232 миллисекунды (в среднем за 320 миллисекунд), что сопоставимо со временем ответа человека в разговоре. Он соответствует производительности GPT-4 Turbo в работе с текстом на английском языке и кодом, при этом значительно улучшая работу с текстами на других языках, а также работая значительно быстрее и будучи на 50 % дешевле в использовании API. GPT-4o также лучше понимает визуальные и аудио данные по сравнению с существующими моделями^[1].

До появления GPT-4o использование голосового режима для общения с ChatGPT сопровождалось задержкой в среднем 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4. Этот режим включал использование трёх отдельных моделей: одна простая модель транскрибировала аудио в текст, GPT-3.5 или GPT-4 обрабатывали текст и генерировали ответ в текстовом формате, а третья простая модель преобразовывала текст обратно в аудио. Такой подход приводил к потере значительной части информации, поскольку основная модель, GPT-4, не могла напрямую учитывать тон, присутствие нескольких говорящих или фоновые шумы, а также не могла воспроизводить смех, пение или выражать эмоции. С внедрением GPT-4o была разработана новая модель, обученная для работы с текстом, визуальными данными и аудио от начала до конца. Это означает, что все входные и выходные данные обрабатываются единой нейронной сетью. GPT-4o является первой моделью, объединяющей все эти модальности, и на данный момент исследование её возможностей и ограничений находится на начальном этапе^[1].

По результатам традиционных бенчмарков, GPT-4o достигает уровня производительности GPT-4 Turbo в текстовых задачах, рассуждениях и программировании, устанавливая новые высшие показатели в многоязычных, аудио и визуальных возможностях^[1].

Модель доступна в бесплатной версии, а также пользователям подписки Plus с увеличенным в пять раз лимитом сообщений. Было анонсировано, что в первые недели после релиза GPT-4o в альфа-версии для пользователей ChatGPT Plus будет выпущен новый режим голосового общения на базе GPT-4o^[1].

Функционал[править]

Описываются следующие функции модели^[2]^[3]:

изображения: распознавание и подробное описание содержимого изображений; перевод текста с изображений; ответы на вопросы, связанные с визуальным содержимым; генерация изображений по текстовому описанию;
видео: понимание визуального контекста видео без звука; распознавание объектов на видео; создание роликов на основе текстового описания, включая трёхмерные; комментирование происходящего на видео в реальном времени; сжатие видео и его пересказ;
аудио: распознавание и транскрибирование речи в реальном времени; генерация речи с различными эмоциональными оттенками и интонациями; определение эмоций по голосу человека.
мультимодальность: одновременная работа с текстом, изображениями, аудио в рамках одного запроса;
понимание контекста: модель принимает во внимание предыдущий контекст беседы при обработке новых данных, а также способна поддерживать последовательный диалог в течение нескольких минут^[2]^[3].

Безопасность и ограничения[править]

GPT-4o обладает встроенными средствами безопасности для всех модальностей, включая фильтрацию обучающих данных и корректировку поведения модели после обучения. Новые системы безопасности обеспечивают ограничения на голосовые выходные данные^[1].

GPT-4o была оценена в соответствии со структурой готовностью компании и её добровольными обязательствами. По результатам оценки по кибербезопасности, химическим, биологическим, радиационным и ядерным угрозам (CBRN), убеждению и автономности модели, GPT-4o не превышает средний уровень риска в любой из этих категорий. Оценка включала автоматические и человеческие проверки на протяжении всего процесса обучения модели. Тестировались версии модели до и после внедрения мер безопасности с использованием специальных настроек и запросов для лучшего выявления возможностей модели. GPT-4o также прошла внешнее тестирование с участием более 70 экспертов в таких областях, как социальная психология, предвзятость и справедливость, а также дезинформация. Это помогло выявить риски, возникающие или усиливающиеся из-за новых модальностей, и разработать меры для повышения безопасности взаимодействия с GPT-4o. Работа по смягчению новых рисков будет продолжаться по мере их обнаружения^[1].

В настоящее время доступны текстовые и графические входные данные, а также текстовые выходные данные. В ближайшие недели и месяцы будут проводиться работы над технической инфраструктурой и обеспечением безопасности для выпуска других модальностей — на начальном этапе аудио выходы будут ограничены набором предустановленных голосов и будут соответствовать существующим политикам безопасности, так как аудио-модальности GPT-4o представляют множество новых рисков^[1].

Достижения[править]

GPT-4o представляет собой новейший шаг в развитии глубокого обучения, ориентированный на практическую применимость. Сообщается, что команда разработки активно работала над улучшением эффективности на всех уровнях системы, и в результате этих усилий модель уровня GPT-4 стала значительно более доступной. Разработчики теперь могут использовать GPT-4o через API как текстовую и визуальную модель, она работает в два раза быстрее, стоит в два раза дешевле и имеет в пять раз более высокие лимиты по количеству запросов по сравнению с GPT-4 Turbo. В будущем планируется запуск поддержки новых аудио- и видеовозможностей GPT-4o через API для небольшой группы доверенных партнёров^[1].

Примечания[править]

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 ^1,7 ^1,8 Hello GPT-4o. Проверено 29 мая 2024.
↑ ^2,0 ^2,1 ^2,2 Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно. Проверено 29 мая 2024.
↑ ^3,0 ^3,1 GPT-4o от OpenAI: новая модель, что она может и как ей управлять. Проверено 29 мая 2024.

Шаблон:OpenAI

Обработка естественного языка ↑ [+]
Общие определения	Корпус текстов • Речевой корпус^[en] • Стоп-слова • Мешок слов^[en] • AI-полнота • N-грамма (Биграмма^[en], Триграмма^[en])
Анализ текста	Сегментация текста^[en] • Частеречная разметка • Поверхностный синтаксический анализ^[en] • Обработка сложных слов^[en] • Извлечение коллокаций^[en] • Стемминг • Лемматизация • Распознавание именованных сущностей^[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов^[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии^[en] • Извлечение информации • Идентификация языка • Определение регистра^[en]
Реферирование^[en]	Извлечение предложений^[en] • Генерация реферата • Многодокументное реферирование^[en] • Упрощение текста^[en]
Машинный перевод	Автоматизированный • Гибридный • Интерлингвальный^[en] • На основе правил • На основе примеров^[en] • На основе словаря^[en] • Статистический • Синхронный • Трансферный^[en]
Идентификация и сбор данных	Распознавание речи • Синтез речи • Оптическое распознавание символов • Генерация текста
Тематическая модель	Размещение патинко • Латентное размещение Дирихле • Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] • Конкордансер^[en] • Предективный ввод текста • Система проверки грамматики^[en] • Система проверки правописания • Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Автоматизированный онлайн-помощник^[en] • Виртуальный собеседник • Вопросно-ответная система • Голосовой интерфейс • Интерактивная литература

Искусственный интеллект ↑ [+]
Философия	Автономный агент • Тест Тьюринга • Китайская комната
Направления	Агентный подход • Адаптивное управление • Инженерия знаний • Модель жизнеспособной системы • Машинное обучение • Нейронные сети • Нечёткая логика • Обработка естественного языка • Распознавание образов • Роевой интеллект • Эволюционные алгоритмы • Экспертная система
Применение	Голосовое управление • Задача классификации • Классификация документов • Кластеризация документов • Кластерный анализ • Локальный поиск • Машинный перевод • Оптическое распознавание символов • Распознавание речи • Распознавание рукописного ввода • Игровой ИИ
Исследователи	Норберт Винер • Алан Тьюринг • В. М. Глушков • Г. С. Осипов • Э. В. Попов • Д. А. Поспелов • М. Г. Гаазе-Рапопорт • Т. А. Гаврилова • В. Ф. Хорошевский • Г. С. Поспелов • Марвин Мински • Джон Маккарти • Фрэнк Розенблатт • Чарльз Бэббидж • Аллен Ньюэлл • Герберт Саймон • Ноам Хомский • Джуда Перл • Сеймур Пейперт • Клод Шеннон • Джозеф Вейценбаум • Патрик Винстон • В. К. Финн
Организации	Государственный университет информатики и искусственного интеллекта • Machine Intelligence Research Institute

Машинное обучение и data mining ↑ [+]
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение Перенос обучения Многоклассовая классификация
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «GPT-4o», расположенная по адресу:

—	«https://ru.ruwiki.ru/wiki/GPT-4o»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».

[Hello_GPT-4o-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 ^1,6 ^1,7 ^1,8 Hello GPT-4o. Проверено 29 мая 2024.

[Чем_новый_ChatGPT-4o_отличается_от_GPT-4,_что_умеет_и_почему_это_супер-важно-2] 2,0 ^2,1 ^2,2 Чем новый ChatGPT-4o отличается от GPT-4, что умеет и почему это супер-важно. Проверено 29 мая 2024.

[GPT-4o_от_OpenAI:_новая_модель,_что_она_может_и_как_ей_управлять-3] 3,0 ^3,1 GPT-4o от OpenAI: новая модель, что она может и как ей управлять. Проверено 29 мая 2024.

[1]

[2]

[3]

GPT-4o

Содержание

Описание[править]

Функционал[править]

Безопасность и ограничения[править]

Достижения[править]

Примечания[править]

Навигация

GPT-4o

Описание[править]

Функционал[править]

Безопасность и ограничения[править]

Достижения[править]

Примечания[править]

Навигация

Поиск