GDELT (проект)
GDELT (от англ. Global Database of Events, Language, and Tone) — проект, созданный Калевом Литару из Yahoo! и Джорджтаунского университета, совместно с Филипом Шродтом и другими, описывает себя как «инициативу по созданию каталога человеческого поведения и убеждений в масштабах общества во всех странах мира, объединяющую каждого человека, организацию, местоположение, количество, тему, источник новостей и событие на всей планете в единую массивную сеть, которая фиксирует, что происходит в мире, каков его контекст, кто в этом участвует и как мир к этому относится, каждый день»[1][2][3]. Ранние исследования, приведшие к созданию GDELT, были описаны соавтором Филипом Шродтом в статье на конференции в январе 2011 года[4]. Набор данных доступен на Google Cloud Platform[5].
Данные[править]
GDELT включает данные с 1979 года по настоящее время. Данные доступны в виде zip-файлов в формате значений, разделенных табуляцией, с расширением CSV для легкого импорта в Microsoft Excel или аналогичное программное обеспечение для работы с электронными таблицами[6]. Данные с 1979 по 2005 год доступны в виде одного zip-файла в год, при этом размер файла постепенно увеличивался с 14,3 МБ в 1979 году до 125,9 МБ в 2005 году, что отражает увеличение количества новостных СМИ и частоты и полноты записи событий[7]. Файлы данных с января 2006 года по март 2013 года доступны с помесячной детализацией, при этом размер заархивированного файла увеличился с 11 МБ в январе 2006 года до 103,2 МБ в марте 2013 года. Файлы данных с 1 апреля 2013 года доступны с ежедневной детализацией. Файл данных за каждую дату становится доступным к 6 утра по восточному стандартному времени на следующий день. По состоянию на июнь 2014 года размер ежедневного заархивированного файла составляет около 5-12 МБ[6][7]. В файлах данных используется кодировка Conflict and Mediation Event Observations (CAMEO) для записи событий[8].
В сообщении в блоге для Foreign Policy соавтор Калев Литару попытался использовать данные GDELT, чтобы ответить на вопрос о том, послужила ли «Арабская весна» катализатором протестов по всему миру, используя частное от деления количества связанных с протестами событий на общее количество зарегистрированных событий в качестве меры интенсивности протеста, для которой затем изучался временной тренд[9]. Политолог и эксперт по анализу данных и прогнозированию Джей Улфельдер раскритиковал это сообщение в своем личном блоге, заявив, что метод нормализации Литару, возможно, недостаточно учитывал изменение характера и состава освещения в СМИ[10].
Набор данных также доступен на Google Cloud Platform и может быть получен с помощью Google BigQuery[5].
Признание[править]
Признание в академической среде[править]
GDELT цитировался и использовался в ряде академических исследований, таких как исследование визуальной и прогнозной аналитики сингапурских новостей (наряду с Wikipedia и Straits Times Index)[11] и исследование политического конфликта[12].
Задача-вызов на Международной конференции по социальным вычислениям, поведенческому моделированию и прогнозированию (SBP) 2014 года предложила участникам изучить GDELT и применить его к анализу социальных сетей, поведения и прогнозирования[13].
Признание в блогах и СМИ[править]
GDELT освещался на веб-сайте Центра инноваций в области данных[14], а также в GIS Lounge[15]. Он также обсуждался и критиковался в блогах о политическом насилии и прогнозировании кризисов[10][16][17]. Набор данных неоднократно цитировался и критиковался в Foreign Policy[2][18], в том числе в дискуссиях о политических событиях в Сирии[19], «Арабской весне»[9][20] и Нигерии[21]. Он также цитировался в New Scientist[22], на веб-сайте FiveThirtyEight[23] и в блоге Эндрю Салливана[24].
Блог Predictive Heuristics и другие блоги сравнивали GDELT с Интегрированной системой раннего предупреждения о конфликтах (ICEWS)[25][26]. Алекс Ханна вела блог о своем эксперименте по оценке GDELT с помощью вручную закодированных данных, сравнивая его с набором данных Dynamics of Collective Action[27].
В мае 2014 года в блоге Google Cloud Platform было объявлено, что весь набор данных GDELT будет доступен в качестве общедоступного набора данных в Google BigQuery[5].
Примечания[править]
- ↑ About GDELT: The Global Database of Events, Language, and Tone. Проверено 2 июня 2014.
- ↑ 2,0 2,1 «Mapped: Every Protest on the Planet Since 1979». Проверено June 2, 2014.
- ↑ Global Database of Events, Language, and Tone. datahub.io. Проверено 2 июня 2014.
- ↑ Schrodt, Philip Automated Production of High-Volume, Near-Real-Time Political Event Data (January 20, 2011). Архивировано из первоисточника 2 июля 2017. Проверено 12 июня 2014.
- ↑ 5,0 5,1 5,2 World's largest event dataset now publicly available in BigQuery. Google Cloud Platform (May 29, 2014). Проверено 2 июня 2014.
- ↑ 6,0 6,1 Raw data files. Global Database of Events, Language, and Tone.
- ↑ 7,0 7,1 All GDELT Event Files. Проверено 12 июня 2014.
- ↑ Documentation. Global Database of Events, Language, and Tone.
- ↑ 9,0 9,1 Leetaru, Kalev (May 29, 2014). «Did the Arab Spring Really Spark a Wave of Global Protests? The world may look like it's roiling now, but the 1980s were far worse.». Проверено June 2, 2014.
- ↑ 10,0 10,1 Ulfelder, Jay Another Note on the Limitations of Event Data (June 6, 2014). Проверено 12 июня 2014.
- ↑ Phua, Clifton; Feng, Yuzhang; Ji, Junyao & Soh, Timothy (2014), "Visual and Predictive Analytics on Singapore News: Experiments on GDELT, Wikipedia, and ^STI", arΧiv:1404.1996 [cs.OH]
- ↑ Yonamine, James E. A nuanced study of political conflict using the Global Datasets of Events Location and Tone (GDELT) dataset. Проверено 2 июня 2014.
- ↑ SBP 2014 Grand Challenge: explore GDELT, Global Database of Events, Language and Tone. Проверено 2 июня 2014.
- ↑ Creating a Real-Time Global Database of Events, People, and Places in the News. Center for Data Innovation (December 15, 2013). Проверено 2 июня 2014.
- ↑ Caitlin Dempsey Morais Mapping Global Events Since 1979. GIS Lounge (September 5, 2013). Проверено 2 июня 2014.
- ↑ Raining on the Parade: Some Cautions Regarding the Global Database of Events, Language and Tone Dataset. Political Violence at a Glance (February 20, 2014). Проверено 2 июня 2014.
- ↑ Jongman, Berto Global Database of Events, Language, and Tone (GDELT) — (Old) Big Data to See (New) Crises?. Public Intelligence Blog (January 5, 2014). Проверено 2 июня 2014.
- ↑ Keating, Joshua (April 10, 2013). «What can we learn from the last 200 million things that happened in the world?». Проверено June 2, 2014.
- ↑ Keating, Joshua (July 9, 2013). «How Well Does GDELT Follow Events in Syria?». Проверено June 2, 2014.
- ↑ Steinert-Threlkeld, Zachary The Arab Spring and GDELT (September 27, 2013). Проверено 18 июня 2014.
- ↑ Leetaru, Kalev (March 13, 2014). «Mapping Violence and Protests in Nigeria: How Big Data can find the big story.». Проверено June 2, 2014.
- ↑ Heaven, Douglas (May 13, 2013). «World's largest events database could predict conflict». Проверено June 2, 2014.
- ↑ Chalabi, Mona. Kidnapping of Girls in Nigeria Is Part of a Worsening Problem (Updated), FiveThirtyEight (май 2014 года). Проверено 2 июня 2014.
- ↑ Sullivan, Andrew Not Your Father's Global Uprising (May 30, 2014). Проверено 2 июня 2014.
- ↑ mdwardlab GDELT and ICEWS, a short comparison. Predictive Heuristics (October 17, 2013). Архивировано из первоисточника 17 июля 2014. Проверено 18 июня 2014.
- ↑ Beieler, John Noise in GDELT (October 28, 2013). Проверено 21 июня 2014.
- ↑ Hanna, Alex Assessing GDELT with handcoded protest data. Bad Hessian (February 24, 2014). Проверено 21 июня 2014.
Ссылки[править]
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «GDELT (проект)», расположенная по адресу:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA. Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?». |
---|