OmniHuman

Материал из Циклопедии
Перейти к навигации Перейти к поиску

OmniHuman-1 — система искусственного интеллекта от китайской компании ByteDance, представленная 4 февраля 2025 года. Сквозная мультимодальная структура предназначена для генерации персонализированных реалистичных видеороликов на основе одной фотографии и аудиофрагмента (например, речи или вокала). Возможно создание видео любой длительности с настраиваемым аспектным соотношением и пропорциями тела[1].

История[править]

Технологии анимации человека (генерации говорящего на основе аудиодорожки) были распространены и до выхода OmniHuman-1, однако подобные дипфейки выглядели неестественно и содержали артефакты цифрового изображения, несовпадение мимики и другие факторы, позволяющие понять, что видео сгенерировано ИИ[2].

Архитектура модели и обучения

Инженеры ByteDance использовали для обучения OmniHuman-1 более 18 700 часов видеоматериалов с участием людей и воспользовались новым методом под названием «всеобщие условия». Он включает в учебный процесс разнообразные входные данные: текст, аудиосигналы и двигательные паттерны[3].

При этом команда ByteDance сообщает о продолжении работы над системой, которая сейчас ограничена, например, исходными данными. Так, низкое качество загружаемой фотографии скажется на реалистичности готового видео. Также ИИ испытывает трудности с генерацией определённых поз и жестов[4].

Файл:Лекция А. Эйнштейна, сгенерированная ИИ OmniHuman.webm
Лекция А.Эйнштейна, сгенерированная OmniHuman

Технические особенности[править]

Отличительной особенностью является то, что OmniHuman-1 способен генерировать видеоролики в полный рост. Жестикуляция и мимика соответствует произнесённой речи (предыдущие версии ИИ могли анимировать лишь лица или верхнюю часть тела). Поддерживает несколько форм ввода движения:

  • Управление звуком — генерирует синхронизированные движения губ и жесты на основе речевого ввода;
  • На основе существующего видео — воспроизводит движение из эталонного видео;
  • Мультимодальное слияние — объединяет аудио- и видеосигналы для точного управления различными частями тела[5].

Оценка OmniHuman-1 по сравнению с ведущими моделями анимации (включая Loopy, CyberHost и DiffTED):

  • Точность синхронизации губ (чем выше, тем лучше):
    • OmniHuman-1: 5.255
    • Loopy: 4.814
    • CyberHost: 6.627
  • Расстояние Фреше (FVD) (чем меньше, тем лучше):
    • OmniHuman-1: 15.906
    • Loopy: 16.134
    • DiffTED: 58.871
  • Выразительность жестов (HKV metric) :
    • OmniHuman-1: 47.561
    • CyberHost: 24.733
    • DiffGest: 23.409
  • Точность жеста руки (HKC) (чем выше, тем лучше):
    • OmniHuman-1: 0,898
    • CyberHost: 0.884
    • DiffTED: 0.769[5]

Примечания[править]

  1. Omnihuman-lab англ.. omnihuman-lab.github.io (2025-02-05). Проверено 5 февраля 2025.
  2. OmniHuman-1 от ByteDance: новая эпоха дипфейков или угроза безопасности? (4 февраля 2025 года). Проверено 5 февраля 2025.
  3. Китай действительно удивляет: представлена нейросеть OmniHuman-1, создающая реалистичные видео из фотографий (5 февраля 2025 года). Проверено 5 февраля 2025.
  4. Wiggers, Kyle. Deepfake videos are getting shockingly good (4 февраля 2025 года). Проверено 5 февраля 2025.
  5. 5,0 5,1 ByteDance Proposes OmniHuman-1: An End-to-End Multimodality Framework Generating Human Videos based on a Single Human Image and Motion Signals. MarkTechPost (2025-02-04). Проверено 5 февраля 2025.
Nuvola apps Talk.PNG
Философия

Автономный агентТест ТьюрингаКитайская комната

Направления

Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система

Применение

Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ

Исследователи

Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн

Организации

Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute

Рувики

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «OmniHuman», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».