Синтетические данные

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Синтетические данные — информация, созданная искусственно, а не в результате реальных событий.

Обычно синтетические данные генерируются с помощью алгоритмов и могут применяться для проверки математических моделей и обучения моделей машинного обучения[1].

Данные, полученные с помощью компьютерного моделирования, можно считать синтетическими. Это включает в себя большинство приложений физического моделирования, таких как синтезаторы музыки или симуляторы полета. Вывод таких систем приближается к реальному, но полностью генерируется алгоритмически.

Синтетические данные используются в различных областях как фильтр для информации, которая в противном случае могла бы нарушить конфиденциальность отдельных аспектов данных. Во многих чувствительных приложениях наборы данных теоретически существуют, но не могут быть опубликованы для широкой публики[2]; синтетические данные обходят проблемы конфиденциальности, возникающие при использовании реальной потребительской информации без разрешения или компенсации.

Полезность[править]

Синтетические данные генерируются для удовлетворения конкретных потребностей или определенных условий, которые могут отсутствовать в исходных, реальных данных. Одной из препятствий в применении современных подходов машинного обучения для сложных научных задач является нехватка меченых данных, пробел эффективно закрывается использованием синтетических данных, которые точно воспроизводят реальные экспериментальные данные[3]. Это может быть полезно при проектировании многих систем, от симуляций, основанных на теоретических значениях, до процессоров баз данных и т. д. Это помогает обнаруживать и решать неожиданные проблемы, такие как ограничения обработки информации. Синтетические данные часто генерируются для представления подлинных данных и позволяют установить базовый уровень[4]. Другое преимущество синтетических данных заключается в защите конфиденциальности и конфиденциальности подлинных данных, при этом позволяя их использовать для тестирования систем.

В реферате научной статьи, приведенном ниже, описывается программное обеспечение, которое генерирует синтетические данные для тестирования систем обнаружения мошенничества. «Это позволяет нам создавать реалистичные профили поведения пользователей и злоумышленников. Данные используются для обучения самой системы обнаружения мошенничества, тем самым создавая необходимую адаптацию системы к конкретной среде»[4]. В контексте обороны и военных действий синтетические данные рассматриваются как потенциально ценный инструмент для разработки и улучшения сложных систем ИИ, особенно в контексте, где нехватка высококачественных реальных данных[5].

История синтетических данных[править]

Моделирование физических систем в науке, позволяющее проводить симуляции и получать данные, не наблюдаемые в реальности, имеет долгую историю, тесно переплетенную с историей самой физики. Например, исследования в области синтеза звука и голоса восходят к 1930-м годам и ранее, стимулированные разработкой, например, телефона и звукозаписи. Цифровизация привела к появлению программных синтезаторов с 1970-х годов.

В контексте конфиденциального статистического анализа в 1993 году Рубин впервые представил идею полностью синтетических данных[6]. Изначально он разработал этот метод для синтеза ответов на длинные формы переписи населения для домохозяйств с короткими формами. Затем он опубликовал выборки, не содержащие фактических записей длинных форм — таким образом, он сохранял анонимность домохозяйств[7]. Позднее в том же году Литтл представил идею частично синтетических данных. Литтл использовал эту идею для синтеза чувствительных значений в файле общественного пользования[8].

В 1994 году Файенберг предложил идею критического уточнения, в которой он использовал параметрическое апостериорное предсказательное распределение (вместо байесовского бутстрапа) для выборки[7]. Позднее другие важные участники разработки генерации синтетических данных были Тривеллор Рагунатхан, Джерри Рейтер, Дональд Рубин, Джон М. Эбоуд и Джим Вудкок. Вместе они разработали решение для обработки частично синтетических данных с пропущенными данными. Аналогично они разработали метод последовательной регрессионной многомерной импутации[7].

Расчеты[править]

Исследователи тестируют структуру на синтетических данных, которые являются «единственным источником истины, на котором они могут объективно оценивать эффективность своих алгоритмов»[9].

Синтетические данные могут быть сгенерированы с помощью случайных линий с различной ориентацией и начальной позицией[10]. Наборы данных могут быть довольно сложными. Более сложный набор данных можно сгенерировать с помощью построения синтезатора. Чтобы создать синтезатор, сначала используйте исходные данные для создания модели или уравнения, которое наилучшим образом соответствует данным. Эта модель или уравнение будут называться построением синтезатора. Это построение можно использовать для генерации большего объема данных[11].

Построение синтезатора включает построение статистической модели. В примере с линейной регрессией исходные данные можно нанести на график, а затем создать линию наилучшего соответствия по данным. Эта линия — это синтезатор, созданный из исходных данных. Следующим шагом будет генерация большего количества синтетических данных из построения синтезатора или из этого уравнения линейной линии. Таким образом, новые данные могут быть использованы для исследований и разработок, при этом сохраняя конфиденциальность исходных данных[11].

Дэвид Дженсен из Лаборатории открытия знаний объясняет, как генерировать синтетические данные: «Исследователям часто необходимо изучить влияние определенных характеристик данных на их модель данных»[11]. Чтобы помочь построить наборы данных, проявляющие определенные свойства, такие как автокорреляция или разница степеней, проксимити может генерировать синтетические данные, имеющие одну из нескольких типов структуры графа: случайные графы, которые генерируются некоторым случайным процессом; решеточные графы, имеющие кольцевую структуру; решеточные графы, имеющие структуру сетки, и т. д[11]. Во всех случаях процесс генерации данных следует одному и тому же процессу:

  1. Создайте пустую структуру графа.
  2. Сгенерируйте значения атрибутов на основе заданных пользователем априорных вероятностей.

Поскольку значения атрибутов одного объекта могут зависеть от значений атрибутов связанных объектов, процесс генерации атрибутов назначает значения коллективно[11].

Применение синтетических данных[править]

Системы обнаружения мошенничества и конфиденциальности[править]

Синтетические данные используются для тестирования и обучения систем обнаружения мошенничества и конфиденциальности. Специальные алгоритмы и генераторы предназначены для создания реалистичных данных[12], которые затем помогают обучать систему реагировать на определенные ситуации или критерии. Например, программное обеспечение для обнаружения вторжений тестируется с использованием синтетических данных. Эти данные представляют собой подлинные данные и могут включать в себя случаи вторжений, которые не встречаются в подлинных данных. Синтетические данные позволяют программному обеспечению распознавать эти ситуации и реагировать соответствующим образом. Если бы не использовались синтетические данные, программное обеспечение обучалось бы только реагировать на ситуации, представленные подлинными данными, и оно могло бы не распознать другой тип вторжения[4].

Научные исследования[править]

Исследователи, проводящие клинические исследования или любые другие исследования, могут генерировать синтетические данные, чтобы помочь в создании базового уровня для будущих исследований и тестирования.

Реальные данные могут содержать информацию, которую исследователи не хотят публиковать[13], поэтому иногда используются синтетические данные для защиты частной жизни и конфиденциальности набора данных. Использование синтетических данных снижает проблемы конфиденциальности, поскольку оно не содержит личной информации и не может быть отслежено до конкретного лица.

Машинное обучение[править]

Синтетические данные все чаще используются в приложениях машинного обучения: модель обучается на синтетически сгенерированном наборе данных с целью переноса обучения на реальные данные. Прилагаются усилия для расширения возможностей проведения экспериментов в области науки о данных за счет создания универсальных генераторов синтетических данных, таких как Synthetic Data Vault[14]. В целом, синтетические данные имеют ряд естественных преимуществ:

  • После подготовки синтетической среды, создание необходимого объема данных становится быстрым и недорогим;
  • Синтетические данные могут иметь идеально точные метки, включая метки, которые могут быть очень дорогими или невозможными для получения вручную;
  • Синтетическую среду можно модифицировать для улучшения модели и обучения;
  • Синтетические данные могут использоваться в качестве замены для определенных сегментов реальных данных, содержащих, например, конфиденциальную информацию.

Это использование синтетических данных было предложено для приложений компьютерного зрения, в частности для обнаружения объектов, где синтетическая среда представляет собой 3D-модель объекта[15], и для обучения навигации по среде с помощью визуальной информации.

В то же время перенос обучения остается нетривиальной проблемой, и синтетические данные еще не стали повсеместными. Результаты исследований показывают, что добавление небольшого количества реальных данных значительно улучшает перенос обучения с использованием синтетических данных. Достижения в области генеративно-состязательных сетей привели к естественной идее, что можно создавать данные, а затем использовать их для обучения. По крайней мере с 2016 года такое состязательное обучение успешно используется для создания синтетических данных достаточно высокого качества, чтобы получить лучшие результаты в некоторых областях, даже не нужно смешивать реальные данные с синтетическими данными[16].

Примеры[править]

  • В 1987 году автономный автомобиль Navlab использовал 1200 синтетических изображений дорог в качестве одного из подходов к обучению[17].
  • В 2021 году Microsoft выпустила базу данных из 100 000 синтетических лиц, основанных на (500 реальных лицах), которая, как утверждается, «соответствует точности реальным данным»[17][18].

Источники[править]

  1. What is synthetic data? - Definition from WhatIs.com англ.. SearchCIO. Проверено 8 сентября 2022.
  2. Nikolenko Sergey I. Synthetic Data for Deep Learning. — 2021. — Т. 174. — ISBN 978-3-030-75177-7.
  3. Zivenko, Oleksii; Walton, Noah A. W.; Fritsch, William; Forbes, Jacob; Lewis, Amanda M.; Clark, Aaron; Brown, Jesse M. & Sobes, Vladimir (2024-06-03), "Validating Automated Resonance Evaluation with Synthetic Data", arΧiv:2406.01754 [physics.comp-ph] 
  4. 4,0 4,1 4,2 Barse, E.L. (2003). "Synthesizing test data for fraud detection systems" in Proceedings of the 19th Annual Computer Security Applications Conference., IEEE. DOI:10.1109/CSAC.2003.1254343. 
  5. (30 November 2023) «Exploring Synthetic Data for Artificial Intelligence and Autonomous Systems: A Primer».
  6. (1993) «Discussion: Statistical Disclosure Limitation». Journal of Official Statistics 9: 461–468.
  7. 7,0 7,1 7,2 Abowd, John M. Confidentiality Protection of Social Science Micro Data: Synthetic Data and Related Methods. [Powerpoint slides]. Проверено 17 февраля 2011.
  8. (1993) «Statistical Analysis of Masked Data». Journal of Official Statistics 9: 407–426.
  9. (September 2009) «Intelligent Acquisition and Learning of Fluorescence Microscope Data Models». IEEE Transactions on Image Processing 18: 2071–84. DOI:10.1109/TIP.2009.2024580. PMID 19502128. Bibcode2009ITIP...18.2071J.
  10. (July 2009) «A Simple Method of Radial Distortion Correction with Centre of Distortion Estimation». Journal of Mathematical Imaging and Vision 35 (3): 165–172. DOI:10.1007/s10851-009-0162-1.
  11. 11,0 11,1 11,2 11,3 11,4 6. Using Scripts // Proximity 4.3 Tutorial. — 2004.
  12. (December 2002) "Information and Communications Security" in Proceedings of the 4th International Conference, ICICS 2002 Singapore.. 
  13. (June 9–11, 2004) "New Approaches to Confidentiality Protection: Synthetic Data, Remote Access and Research Data Centers" in Privacy in Statistical Databases: CASC Project Final Conference, Proceedings.. DOI:10.1007/978-3-540-25955-8_22. 
  14. "The Synthetic Data Vault" in Data Science and Advanced Analytics (DSAA) 2016., IEEE. DOI:10.1109/DSAA.2016.49. 
  15. Peng, Xingchao; Sun, Baochen; Ali, Karim & Saenko, Kate (2015), "Learning Deep Object Detectors from 3D Models", arΧiv:1412.7122 [cs.CV] 
  16. Shrivastava, Ashish; Pfister, Tomas; Tuzel, Oncel; Susskind, Josh; Wang, Wenda & Webb, Russ (2016), "Learning from Simulated and Unsupervised Images through Adversarial Training", arΧiv:1612.07828 [cs.CV] 
  17. 17,0 17,1 Neural Networks Need Data to Learn. Even If It's Fake. (июнь 2023 года).
  18. (2021) «Fake It Till You Make It: Face Analysis in the Wild Using Synthetic Data Alone» (en). Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV): 3681–3691.

Литература[править]

Ссылки[править]

Руниверсалис

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «Синтетические данные», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA.

Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?».