OmniHuman

Материал из Циклопедии
Перейти к навигации Перейти к поиску

OmniHuman-1 AI


Лого OmniHuman.png






Основатели
ByteDance




Отрасль
Искусственный интеллект










Сайт
https://omnihuman.cc/

OmniHuman-1 — система искусственного интеллекта от китайской компании ByteDance, представленная 4 февраля 2025 года. Сквозная мультимодальная структура предназначена для генерации персонализированных реалистичных видеороликов на основе одной фотографии и аудиофрагмента (например, речи или вокала). Возможно создание видео любой длительности с настраиваемым аспектным соотношением и пропорциями тела[1].

История[править]

Технологии анимации человека (генерации говорящего на основе аудиодорожки) были распространены и до выхода OmniHuman-1, однако подобные дипфейки выглядели неестественно и содержали артефакты цифрового изображения, несовпадение мимики и другие факторы, позволяющие понять, что видео сгенерировано ИИ[2].

Архитектура модели и обучения

Инженеры ByteDance использовали для обучения OmniHuman-1 более 18 700 часов видеоматериалов с участием людей и воспользовались новым методом под названием «всеобщие условия». Он включает в учебный процесс разнообразные входные данные: текст, аудиосигналы и двигательные паттерны[3].

При этом команда ByteDance сообщает о продолжении работы над системой, которая сейчас ограничена, например, исходными данными. Так, низкое качество загружаемой фотографии скажется на реалистичности готового видео. Также ИИ испытывает трудности с генерацией определённых поз и жестов[4].

Файл:Лекция А. Эйнштейна, сгенерированная ИИ OmniHuman.webm
Лекция А.Эйнштейна, сгенерированная OmniHuman

Технические особенности[править]

Отличительной особенностью является то, что OmniHuman-1 способен генерировать видеоролики в полный рост. Жестикуляция и мимика соответствует произнесённой речи (предыдущие версии ИИ могли анимировать лишь лица или верхнюю часть тела). Поддерживает несколько форм ввода движения:

  • Управление звуком — генерирует синхронизированные движения губ и жесты на основе речевого ввода;
  • На основе существующего видео — воспроизводит движение из эталонного видео;
  • Мультимодальное слияние — объединяет аудио- и видеосигналы для точного управления различными частями тела[5].

Оценка OmniHuman-1 по сравнению с ведущими моделями анимации (включая Loopy, CyberHost и DiffTED):

  • Точность синхронизации губ (чем выше, тем лучше):
    • OmniHuman-1: 5.255
    • Loopy: 4.814
    • CyberHost: 6.627
  • Расстояние Фреше (FVD) (чем меньше, тем лучше):
    • OmniHuman-1: 15.906
    • Loopy: 16.134
    • DiffTED: 58.871
  • Выразительность жестов (HKV metric) :
    • OmniHuman-1: 47.561
    • CyberHost: 24.733
    • DiffGest: 23.409
  • Точность жеста руки (HKC) (чем выше, тем лучше):
    • OmniHuman-1: 0,898
    • CyberHost: 0.884
    • DiffTED: 0.769[5]

Примечания[править]

  1. Omnihuman-labангл.. omnihuman-lab.github.io (2025-02-05). Проверено 5 февраля 2025.
  2. OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности? (4 февраля 2025 года). Проверено 5 февраля 2025.
  3. Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий (5 февраля 2025 года). Проверено 5 февраля 2025.
  4. Wiggers, Kyle. Deepfake videos are getting shockingly good (4 февраля 2025 года). Проверено 5 февраля 2025.
  5. 5,0 5,1 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (2025-02-04). Проверено 5 февраля 2025.
Философия
Направления
Применение
Исследователи
Организации
Связанное

Категория Искусственный интеллект

Рувики

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «OmniHuman», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».