GPT-4o

Материал из Циклопедии
Перейти к навигации Перейти к поиску
программное обеспечение
Generative Pre-trained Transformer 4 omni (GPT-4o)
Файл:Gpt4o.png
Тип

мультимодальное обучение, большая языковая модель, генеративный предобученный трансформер, foundation model

Языки интерфейса

многоязычный, в том числе русский

Первый выпуск

13 мая 2024

Читаемые форматы

текст, фото, видео, аудио

Состояние

активное

Лицензия

Проприетарная

Сайт

openai.com

«GPT-4o» (англ. Generative Pre-trained Transformer 4 omni) — генеративный предобученный трансформер, разработанный OpenAI. Он был представлен Мирой Мурати 13 мая 2024 года, в тот же день произошёл релиз нейросети. Чат-бот получил поддержку мультимодальности и стал быстрее обрабатывать информацию, благодаря чему у него появились уникальные функции — восприятие информации различных типов, ответ на неё в течение времени, сопоставимым с временем ответа обычного человека. GPT-4o дешевле на 50 % и работает значительно быстрее предшественника, GPT-4 Turbo[1][2].

Описание[править]

Как сообщается на тематической странице на официальном сайте компании, GPT-4o принимает в качестве ввода любую комбинацию текста, аудио, изображения и видео и генерирует любую комбинацию текстовых, аудио и изображений выходных данных. Он может отвечать на аудио-ввод всего за 232 миллисекунды (в среднем за 320 миллисекунд), что сопоставимо со временем ответа человека в разговоре. Он соответствует производительности GPT-4 Turbo в работе с текстом на английском языке и кодом, при этом значительно улучшая работу с текстами на других языках, а также работая значительно быстрее и будучи на 50 % дешевле в использовании API. GPT-4o также лучше понимает визуальные и аудио данные по сравнению с существующими моделями[1].

До появления GPT-4o использование голосового режима для общения с ChatGPT сопровождалось задержкой в среднем 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4. Этот режим включал использование трёх отдельных моделей: одна простая модель транскрибировала аудио в текст, GPT-3.5 или GPT-4 обрабатывали текст и генерировали ответ в текстовом формате, а третья простая модель преобразовывала текст обратно в аудио. Такой подход приводил к потере значительной части информации, поскольку основная модель, GPT-4, не могла напрямую учитывать тон, присутствие нескольких говорящих или фоновые шумы, а также не могла воспроизводить смех, пение или выражать эмоции. С внедрением GPT-4o была разработана новая модель, обученная для работы с текстом, визуальными данными и аудио от начала до конца. Это означает, что все входные и выходные данные обрабатываются единой нейронной сетью. GPT-4o является первой моделью, объединяющей все эти модальности, и на данный момент исследование её возможностей и ограничений находится на начальном этапе[1].

По результатам традиционных бенчмарков, GPT-4o достигает уровня производительности GPT-4 Turbo в текстовых задачах, рассуждениях и программировании, устанавливая новые высшие показатели в многоязычных, аудио и визуальных возможностях[1].

Модель доступна в бесплатной версии, а также пользователям подписки Plus с увеличенным в пять раз лимитом сообщений. Было анонсировано, что в первые недели после релиза GPT-4o в альфа-версии для пользователей ChatGPT Plus будет выпущен новый режим голосового общения на базе GPT-4o[1].

Функционал[править]

Описываются следующие функции модели[2][3]:

  • изображения: распознавание и подробное описание содержимого изображений; перевод текста с изображений; ответы на вопросы, связанные с визуальным содержимым; генерация изображений по текстовому описанию;
  • видео: понимание визуального контекста видео без звука; распознавание объектов на видео; создание роликов на основе текстового описания, включая трёхмерные; комментирование происходящего на видео в реальном времени; сжатие видео и его пересказ;
  • аудио: распознавание и транскрибирование речи в реальном времени; генерация речи с различными эмоциональными оттенками и интонациями; определение эмоций по голосу человека.
  • мультимодальность: одновременная работа с текстом, изображениями, аудио в рамках одного запроса;
  • понимание контекста: модель принимает во внимание предыдущий контекст беседы при обработке новых данных, а также способна поддерживать последовательный диалог в течение нескольких минут[2][3].

Безопасность и ограничения[править]

GPT-4o обладает встроенными средствами безопасности для всех модальностей, включая фильтрацию обучающих данных и корректировку поведения модели после обучения. Новые системы безопасности обеспечивают ограничения на голосовые выходные данные[1].

GPT-4o была оценена в соответствии со структурой готовностью компании и её добровольными обязательствами. По результатам оценки по кибербезопасности, химическим, биологическим, радиационным и ядерным угрозам (CBRN), убеждению и автономности модели, GPT-4o не превышает средний уровень риска в любой из этих категорий. Оценка включала автоматические и человеческие проверки на протяжении всего процесса обучения модели. Тестировались версии модели до и после внедрения мер безопасности с использованием специальных настроек и запросов для лучшего выявления возможностей модели. GPT-4o также прошла внешнее тестирование с участием более 70 экспертов в таких областях, как социальная психология, предвзятость и справедливость, а также дезинформация. Это помогло выявить риски, возникающие или усиливающиеся из-за новых модальностей, и разработать меры для повышения безопасности взаимодействия с GPT-4o. Работа по смягчению новых рисков будет продолжаться по мере их обнаружения[1].

В настоящее время доступны текстовые и графические входные данные, а также текстовые выходные данные. В ближайшие недели и месяцы будут проводиться работы над технической инфраструктурой и обеспечением безопасности для выпуска других модальностей — на начальном этапе аудио выходы будут ограничены набором предустановленных голосов и будут соответствовать существующим политикам безопасности, так как аудио-модальности GPT-4o представляют множество новых рисков[1].

Достижения[править]

GPT-4o представляет собой новейший шаг в развитии глубокого обучения, ориентированный на практическую применимость. Сообщается, что команда разработки активно работала над улучшением эффективности на всех уровнях системы, и в результате этих усилий модель уровня GPT-4 стала значительно более доступной. Разработчики теперь могут использовать GPT-4o через API как текстовую и визуальную модель, она работает в два раза быстрее, стоит в два раза дешевле и имеет в пять раз более высокие лимиты по количеству запросов по сравнению с GPT-4 Turbo. В будущем планируется запуск поддержки новых аудио- и видеовозможностей GPT-4o через API для небольшой группы доверенных партнёров[1].

Примечания[править]

Шаблон:OpenAI

 
Общие определения
Анализ текста

Сегментация текста[en] • Частеречная разметка • Поверхностный синтаксический анализ[en] • Обработка сложных слов[en] • Извлечение коллокаций[en] • Стемминг • Лемматизация • Распознавание именованных сущностей[en] • Разрешение кореферентности • Анализ тональности текста • Извлечение концептов[en] • Синтаксический анализ • Разрешение лексической многозначности • Извлечение терминологии[en] • Извлечение информации • Идентификация языка • Определение регистра[en]

Реферирование[en]
Машинный перевод
Идентификация
и сбор данных
Тематическая модель
Рецензирование
Интерфейс
на естественном языке
[en]
Nuvola apps Talk.PNG
Философия

Автономный агентТест ТьюрингаКитайская комната

Направления

Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система

Применение

Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ

Исследователи

Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн

Организации

Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute

 
Задачи
Обучение с учителем
Кластерный анализ
Снижение размерности
Структурное прогнозирование
Выявление аномалий
Графовые вероятностные модели
Нейронные сети
Обучение с подкреплением
Теория
Журналы и конференции
Рувики

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «GPT-4o», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».