OmniHuman

OmniHuman-1 AI

Основатели: ByteDance

Отрасль: Искусственный интеллект

Сайт: https://omnihuman.cc/

OmniHuman-1 — система искусственного интеллекта от китайской компании ByteDance, представленная 4 февраля 2025 года. Сквозная мультимодальная структура предназначена для генерации персонализированных реалистичных видеороликов на основе одной фотографии и аудиофрагмента (например, речи или вокала). Возможно создание видео любой длительности с настраиваемым аспектным соотношением и пропорциями тела^[1].

История[править]

Технологии анимации человека (генерации говорящего на основе аудиодорожки) были распространены и до выхода OmniHuman-1, однако подобные дипфейки выглядели неестественно и содержали артефакты цифрового изображения, несовпадение мимики и другие факторы, позволяющие понять, что видео сгенерировано ИИ^[2].

Архитектура модели и обучения

Инженеры ByteDance использовали для обучения OmniHuman-1 более 18 700 часов видеоматериалов с участием людей и воспользовались новым методом под названием «всеобщие условия». Он включает в учебный процесс разнообразные входные данные: текст, аудиосигналы и двигательные паттерны^[3].

При этом команда ByteDance сообщает о продолжении работы над системой, которая сейчас ограничена, например, исходными данными. Так, низкое качество загружаемой фотографии скажется на реалистичности готового видео. Также ИИ испытывает трудности с генерацией определённых поз и жестов^[4].

Файл:Лекция А. Эйнштейна, сгенерированная ИИ OmniHuman.webm

Лекция А.Эйнштейна, сгенерированная OmniHuman

Технические особенности[править]

Отличительной особенностью является то, что OmniHuman-1 способен генерировать видеоролики в полный рост. Жестикуляция и мимика соответствует произнесённой речи (предыдущие версии ИИ могли анимировать лишь лица или верхнюю часть тела). Поддерживает несколько форм ввода движения:

Управление звуком — генерирует синхронизированные движения губ и жесты на основе речевого ввода;
На основе существующего видео — воспроизводит движение из эталонного видео;
Мультимодальное слияние — объединяет аудио- и видеосигналы для точного управления различными частями тела^[5].

Оценка OmniHuman-1 по сравнению с ведущими моделями анимации (включая Loopy, CyberHost и DiffTED):

Точность синхронизации губ (чем выше, тем лучше):
- OmniHuman-1: 5.255
- Loopy: 4.814
- CyberHost: 6.627
Расстояние Фреше (FVD) (чем меньше, тем лучше):
- OmniHuman-1: 15.906
- Loopy: 16.134
- DiffTED: 58.871
Выразительность жестов (HKV metric) :
- OmniHuman-1: 47.561
- CyberHost: 24.733
- DiffGest: 23.409
Точность жеста руки (HKC) (чем выше, тем лучше):
- OmniHuman-1: 0,898
- CyberHost: 0.884
- DiffTED: 0.769^[5]

Примечания[править]

↑ Omnihuman-lab англ.. omnihuman-lab.github.io (2025-02-05). Проверено 5 февраля 2025.
↑ OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности? (4 февраля 2025 года). Проверено 5 февраля 2025.
↑ Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий (5 февраля 2025 года). Проверено 5 февраля 2025.
↑ Wiggers, Kyle. Deepfake videos are getting shockingly good (4 февраля 2025 года). Проверено 5 февраля 2025.
↑ ^5,0 ^5,1 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (2025-02-04). Проверено 5 февраля 2025.

Искусственный интеллект ↑ [+]
Философия	Автономный агент • Тест Тьюринга • Китайская комната
Направления	Агентный подход • Адаптивное управление • Инженерия знаний • Модель жизнеспособной системы • Машинное обучение • Нейронные сети • Нечёткая логика • Обработка естественного языка • Распознавание образов • Роевой интеллект • Эволюционные алгоритмы • Экспертная система
Применение	Голосовое управление • Задача классификации • Классификация документов • Кластеризация документов • Кластерный анализ • Локальный поиск • Машинный перевод • Оптическое распознавание символов • Распознавание речи • Распознавание рукописного ввода • Игровой ИИ
Исследователи	Норберт Винер • Алан Тьюринг • В. М. Глушков • Г. С. Осипов • Э. В. Попов • Д. А. Поспелов • М. Г. Гаазе-Рапопорт • Т. А. Гаврилова • В. Ф. Хорошевский • Г. С. Поспелов • Марвин Мински • Джон Маккарти • Фрэнк Розенблатт • Чарльз Бэббидж • Аллен Ньюэлл • Герберт Саймон • Ноам Хомский • Джуда Перл • Сеймур Пейперт • Клод Шеннон • Джозеф Вейценбаум • Патрик Винстон • В. К. Финн
Организации	Государственный университет информатики и искусственного интеллекта • Machine Intelligence Research Institute

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «OmniHuman», расположенная по адресу:

—	«https://ru.ruwiki.ru/wiki/OmniHuman»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».

[1] Omnihuman-lab англ.. omnihuman-lab.github.io (2025-02-05). Проверено 5 февраля 2025.

[2] OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности? (4 февраля 2025 года). Проверено 5 февраля 2025.

[3] Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий (5 февраля 2025 года). Проверено 5 февраля 2025.

[4] Wiggers, Kyle. Deepfake videos are getting shockingly good (4 февраля 2025 года). Проверено 5 февраля 2025.

[:0-5] 5,0 ^5,1 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (2025-02-04). Проверено 5 февраля 2025.

[1]

[2]

[3]

[4]

[5]

OmniHuman

История[править]

Технические особенности[править]

Примечания[править]

Навигация

Поиск