Коллапс модели

Материал из Циклопедии
Перейти к навигации Перейти к поиску
Подобно дракону Уроборосу, языковые модели питаются материалом, который они сами производят.

Коллапс модели (англ. model collapse), также коллапс ИИ (англ. AI collapse) — постепенное ухудшение вывода генеративной модели ИИ, обученной на синтетических данных.

Общая информация[править]

При обучении на синтетических данных, ИИ может не замечать менее распространенные строки текста, тем самым последующие модели, обученные на выходе, не могут учесть эти нюансы, что ведет к рекурсивному циклу[1]. По сути, это означает, что новые языковые модели обучаются на данных из интернета, которые включают в себя выходные данные предыдущих версий языковых моделей[2][3][4][5][6].

Повторение этого процесса от поколения моделей к поколению формирует так называемый аутофагический цикл (самопоглощения)[7].

Теоретические и эмпирические исследования показали, что будущим генеративным моделям для каждого поколения аутофагического цикла требуется достаточное количество реальных, свежих данных. Без этого будущие генеративные модели обречены постепенно терять качество (точность) или разнообразие (охват поиска, точность распознавания, то есть способность распознавать различные случаи из обучающих данных)[7]. Поэтому коллапс модели также называют аутофагическим расстройством модели (англ. Model Autophagy Disorder, MAD), аналогом коровьего бешенства[7].

На рисунке сравниваются две стратегии обучения моделей ИИ: замещение данных (слева) и накопление данных (справа). При замещении данных новые данные вытесняют старые, что повышает потери при тестировании (test loss) и ухудшает производительность модели. При накоплении данных новые данные добавляются к старым, что сохраняет потери при тестировании на стабильном уровне и поддерживает производительность.

Исследование[уточнить], опубликованное в 2024 году, поставило под сомнение представление о том, что модели ИИ теряют свою эффективность, когда их постоянно обучают на их собственных результатах[8]. Согласно исследованию, производительность моделей может сохраняться, если объем обучающих данных со временем увеличивается, а старые данные не заменяются новыми[8]. Это говорит о том, что модели могут сохранять и даже улучшать свою производительность при постоянном предоставлении им новых и разнообразных данных[8].

Влияние на языковые модели[править]

Исследование 2024 года показало, что обучение языковых моделей на синтетических данных, полученных от предыдущих моделей, ухудшает их способность генерировать разнообразный текст[9]. Обучающие данные, состоящие в основном из старых материалов, созданных самими моделями, приводит к сокращению лексического, синтаксического и семантического разнообразия языка[9]. В частности, в задачах, требующих творчества, таких как повествование или создание стихов, этот недостаток разнообразия может существенно ограничивать качество и оригинальность вывода моделей[9].

Отравление данных, практикуемое художниками[править]

Отравление данных — это своего рода форма борьбы с машинным обучением, при которой данные изображения или текста изменяются таким образом, чтобы модель обучения не могла обрабатывать их точно. Существуют два основных типа отравления данных: оборонительное, при котором данные изображения изменяются для защиты целостности произведения, предотвращая копирование и подражание, и атакующее, при котором данные изображения изменяются для снижения надежности генеративного ИИ[10].

См.также[править]

Источники[править]

  1. Роман Кильдюшкин Искусственному интеллекту предсказали скорый крах из-за каннибализма данных рус.. Газета.ru (2024-07-27). Проверено 15 октября 2024.
  2. Hallamaa, Teemu Tekoälyn tuottaman sisällön pelätään saastuttavan internetin – tutkijat ennustavat synteettisen sisällön horjuttavan tulevia kielimalleja (4.7.2023). Проверено 10 марта 2024.
  3. Mok, Aaron A disturbing AI phenomenon could completely upend the internet as we know it (29.8.2023). Проверено 10 марта 2024.
  4. Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Gal, Yarin; Papernot, Nicolas; Anderson, Ross (31.5.2023). «The Curse of Recursion: Training on Generated Data Makes Models Forget». arXiv. DOI:10.48550/arXiv.2305.17493.
  5. Ozsevim, Ilkhan Research finds ChatGPT & Bard headed for 'Model Collapse'. BizClik Media (20.6.2023). Проверено 10 марта 2024.
  6. Dohmatob, Elvis & Feng, Yunzhen & Kempe, Julia (12.2.2024). «Model Collapse Demystified: The Case of Regression». arXiv. DOI:10.48550/arXiv.2402.07712.
  7. 7,0 7,1 7,2 Alemohammad, Sina; Casco-Rodriguez, Josue; Luzi, Lorenzo; Humayun, Ahmed Imtiaz; Babaei, Hossein; LeJeune, Daniel; Siahkoohi, Ali; Baraniuk, Richard G. (16.3.2024). «Self-Consuming Generative Models Go MAD». Self-Consuming Generative Models Go MAD.
  8. 8,0 8,1 8,2 Gerstgrasser, Matthias; Schaeffer, Rylan; Dey, Apratim; Rafailov, Rafael; Sleight, Henry; Hughes, John; Korbak, Tomasz; Agrawal, Rajashree; Pai, Dhruv; Gromov, Andrey; Roberts, Daniel A.; Yang, Diyi; Donoho, David L.; Koyejo, Sanmi (2024-04-01). «Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data». arXiv.
  9. 9,0 9,1 9,2 Guo, Yanzhu; Shang, Guokan; Vazirgiannis, Michalis; Clavel, Chloé (16.4.2024). «The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text». arXiv. DOI:10.48550/arXiv.2311.09807.
  10. The Nightshade Team What is Nightshade. Chicagon yliopisto (2024). Проверено 18 июня 2024.

Ссылки[править]

Руниверсалис

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «Коллапс модели», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA.

Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?».