GPT-4o
- Не следует путать с GPT-4.
программное обеспечение | |
Generative Pre-trained Transformer 4 omni (GPT-4o) | |
---|---|
Файл:Gpt4o.png | |
Тип |
мультимодальное обучение, большая языковая модель, генеративный предобученный трансформер, foundation model |
Языки интерфейса |
многоязычный, в том числе русский |
Первый выпуск |
13 мая 2024 |
Читаемые форматы |
текст, фото, видео, аудио |
Состояние |
активное |
Лицензия | |
Сайт |
«GPT-4o» (англ. Generative Pre-trained Transformer 4 omni) — генеративный предобученный трансформер, разработанный OpenAI. Он был представлен Мирой Мурати 13 мая 2024 года, в тот же день произошёл релиз нейросети. Чат-бот получил поддержку мультимодальности и стал быстрее обрабатывать информацию, благодаря чему у него появились уникальные функции — восприятие информации различных типов, ответ на неё в течение времени, сопоставимым с временем ответа обычного человека. GPT-4o дешевле на 50 % и работает значительно быстрее предшественника, GPT-4 Turbo[1][2].
Описание[править]
Как сообщается на тематической странице на официальном сайте компании, GPT-4o принимает в качестве ввода любую комбинацию текста, аудио, изображения и видео и генерирует любую комбинацию текстовых, аудио и изображений выходных данных. Он может отвечать на аудио-ввод всего за 232 миллисекунды (в среднем за 320 миллисекунд), что сопоставимо со временем ответа человека в разговоре. Он соответствует производительности GPT-4 Turbo в работе с текстом на английском языке и кодом, при этом значительно улучшая работу с текстами на других языках, а также работая значительно быстрее и будучи на 50 % дешевле в использовании API. GPT-4o также лучше понимает визуальные и аудио данные по сравнению с существующими моделями[1].
До появления GPT-4o использование голосового режима для общения с ChatGPT сопровождалось задержкой в среднем 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4. Этот режим включал использование трёх отдельных моделей: одна простая модель транскрибировала аудио в текст, GPT-3.5 или GPT-4 обрабатывали текст и генерировали ответ в текстовом формате, а третья простая модель преобразовывала текст обратно в аудио. Такой подход приводил к потере значительной части информации, поскольку основная модель, GPT-4, не могла напрямую учитывать тон, присутствие нескольких говорящих или фоновые шумы, а также не могла воспроизводить смех, пение или выражать эмоции. С внедрением GPT-4o была разработана новая модель, обученная для работы с текстом, визуальными данными и аудио от начала до конца. Это означает, что все входные и выходные данные обрабатываются единой нейронной сетью. GPT-4o является первой моделью, объединяющей все эти модальности, и на данный момент исследование её возможностей и ограничений находится на начальном этапе[1].
По результатам традиционных бенчмарков, GPT-4o достигает уровня производительности GPT-4 Turbo в текстовых задачах, рассуждениях и программировании, устанавливая новые высшие показатели в многоязычных, аудио и визуальных возможностях[1].
Модель доступна в бесплатной версии, а также пользователям подписки Plus с увеличенным в пять раз лимитом сообщений. Было анонсировано, что в первые недели после релиза GPT-4o в альфа-версии для пользователей ChatGPT Plus будет выпущен новый режим голосового общения на базе GPT-4o[1].
Функционал[править]
Описываются следующие функции модели[2][3]:
- изображения: распознавание и подробное описание содержимого изображений; перевод текста с изображений; ответы на вопросы, связанные с визуальным содержимым; генерация изображений по текстовому описанию;
- видео: понимание визуального контекста видео без звука; распознавание объектов на видео; создание роликов на основе текстового описания, включая трёхмерные; комментирование происходящего на видео в реальном времени; сжатие видео и его пересказ;
- аудио: распознавание и транскрибирование речи в реальном времени; генерация речи с различными эмоциональными оттенками и интонациями; определение эмоций по голосу человека.
- мультимодальность: одновременная работа с текстом, изображениями, аудио в рамках одного запроса;
- понимание контекста: модель принимает во внимание предыдущий контекст беседы при обработке новых данных, а также способна поддерживать последовательный диалог в течение нескольких минут[2][3].
Безопасность и ограничения[править]
GPT-4o обладает встроенными средствами безопасности для всех модальностей, включая фильтрацию обучающих данных и корректировку поведения модели после обучения. Новые системы безопасности обеспечивают ограничения на голосовые выходные данные[1].
GPT-4o была оценена в соответствии со структурой готовностью компании и её добровольными обязательствами. По результатам оценки по кибербезопасности, химическим, биологическим, радиационным и ядерным угрозам (CBRN), убеждению и автономности модели, GPT-4o не превышает средний уровень риска в любой из этих категорий. Оценка включала автоматические и человеческие проверки на протяжении всего процесса обучения модели. Тестировались версии модели до и после внедрения мер безопасности с использованием специальных настроек и запросов для лучшего выявления возможностей модели. GPT-4o также прошла внешнее тестирование с участием более 70 экспертов в таких областях, как социальная психология, предвзятость и справедливость, а также дезинформация. Это помогло выявить риски, возникающие или усиливающиеся из-за новых модальностей, и разработать меры для повышения безопасности взаимодействия с GPT-4o. Работа по смягчению новых рисков будет продолжаться по мере их обнаружения[1].
В настоящее время доступны текстовые и графические входные данные, а также текстовые выходные данные. В ближайшие недели и месяцы будут проводиться работы над технической инфраструктурой и обеспечением безопасности для выпуска других модальностей — на начальном этапе аудио выходы будут ограничены набором предустановленных голосов и будут соответствовать существующим политикам безопасности, так как аудио-модальности GPT-4o представляют множество новых рисков[1].
Достижения[править]
GPT-4o представляет собой новейший шаг в развитии глубокого обучения, ориентированный на практическую применимость. Сообщается, что команда разработки активно работала над улучшением эффективности на всех уровнях системы, и в результате этих усилий модель уровня GPT-4 стала значительно более доступной. Разработчики теперь могут использовать GPT-4o через API как текстовую и визуальную модель, она работает в два раза быстрее, стоит в два раза дешевле и имеет в пять раз более высокие лимиты по количеству запросов по сравнению с GPT-4 Turbo. В будущем планируется запуск поддержки новых аудио- и видеовозможностей GPT-4o через API для небольшой группы доверенных партнёров[1].
Примечания[править]
![]() ↑ [+] | |
---|---|
Задачи | |
Обучение с учителем | |
Кластерный анализ | |
Снижение размерности | |
Структурное прогнозирование | |
Выявление аномалий | |
Графовые вероятностные модели | |
Нейронные сети | |
Обучение с подкреплением | |
Теория | |
Журналы и конференции |
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «GPT-4o», расположенная по адресу:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий. Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?». |
---|