OmniHuman

OmniHuman-1 AI

Основатели: ByteDance

Отрасль: Искусственный интеллект

Сайт: https://omnihuman.cc/

OmniHuman-1 — система искусственного интеллекта от китайской компании ByteDance, представленная 4 февраля 2025 года. Сквозная мультимодальная структура предназначена для генерации персонализированных реалистичных видеороликов на основе одной фотографии и аудиофрагмента (например, речи или вокала). Возможно создание видео любой длительности с настраиваемым аспектным соотношением и пропорциями тела^[1].

История[править]

Технологии анимации человека (генерации говорящего на основе аудиодорожки) были распространены и до выхода OmniHuman-1, однако подобные дипфейки выглядели неестественно и содержали артефакты цифрового изображения, несовпадение мимики и другие факторы, позволяющие понять, что видео сгенерировано ИИ^[2].

Архитектура модели и обучения

Инженеры ByteDance использовали для обучения OmniHuman-1 более 18 700 часов видеоматериалов с участием людей и воспользовались новым методом под названием «всеобщие условия». Он включает в учебный процесс разнообразные входные данные: текст, аудиосигналы и двигательные паттерны^[3].

При этом команда ByteDance сообщает о продолжении работы над системой, которая сейчас ограничена, например, исходными данными. Так, низкое качество загружаемой фотографии скажется на реалистичности готового видео. Также ИИ испытывает трудности с генерацией определённых поз и жестов^[4].

Файл:Лекция А. Эйнштейна, сгенерированная ИИ OmniHuman.webm

Лекция А.Эйнштейна, сгенерированная OmniHuman

Технические особенности[править]

Отличительной особенностью является то, что OmniHuman-1 способен генерировать видеоролики в полный рост. Жестикуляция и мимика соответствует произнесённой речи (предыдущие версии ИИ могли анимировать лишь лица или верхнюю часть тела). Поддерживает несколько форм ввода движения:

Управление звуком — генерирует синхронизированные движения губ и жесты на основе речевого ввода;
На основе существующего видео — воспроизводит движение из эталонного видео;
Мультимодальное слияние — объединяет аудио- и видеосигналы для точного управления различными частями тела^[5].

Оценка OmniHuman-1 по сравнению с ведущими моделями анимации (включая Loopy, CyberHost и DiffTED):

Точность синхронизации губ (чем выше, тем лучше):
- OmniHuman-1: 5.255
- Loopy: 4.814
- CyberHost: 6.627
Расстояние Фреше (FVD) (чем меньше, тем лучше):
- OmniHuman-1: 15.906
- Loopy: 16.134
- DiffTED: 58.871
Выразительность жестов (HKV metric) :
- OmniHuman-1: 47.561
- CyberHost: 24.733
- DiffGest: 23.409
Точность жеста руки (HKC) (чем выше, тем лучше):
- OmniHuman-1: 0,898
- CyberHost: 0.884
- DiffTED: 0.769^[5]

Примечания[править]

↑ Omnihuman-labангл.. omnihuman-lab.github.io (2025-02-05). Проверено 5 февраля 2025.
↑ OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности? (4 февраля 2025 года). Проверено 5 февраля 2025.
↑ Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий (5 февраля 2025 года). Проверено 5 февраля 2025.
↑ Wiggers, Kyle. Deepfake videos are getting shockingly good (4 февраля 2025 года). Проверено 5 февраля 2025.
↑ ^5,0 ^5,1 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (2025-02-04). Проверено 5 февраля 2025.

Искусственный интеллект ↑ [+]
Философия	Автономный агент Тест Тьюринга Китайская комната
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн
Организации	Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute
Связанное	ИИ-паранойя ИИ-фобия Синтетические данные
Искусственный интеллект

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «OmniHuman», расположенная по адресу:

—	«https://ru.ruwiki.ru/wiki/OmniHuman»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».

[1] Omnihuman-labангл.. omnihuman-lab.github.io (2025-02-05). Проверено 5 февраля 2025.

[2] OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности? (4 февраля 2025 года). Проверено 5 февраля 2025.

[3] Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий (5 февраля 2025 года). Проверено 5 февраля 2025.

[4] Wiggers, Kyle. Deepfake videos are getting shockingly good (4 февраля 2025 года). Проверено 5 февраля 2025.

[:0-5] 5,0 ^5,1 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (2025-02-04). Проверено 5 февраля 2025.

[1]

[2]

[3]

[4]

[5]

OmniHuman

История[править]

Технические особенности[править]

Примечания[править]

Навигация

Поиск