Лингвистический корпус иврита

Материал из Циклопедии
Перейти к навигации Перейти к поиску
Лингвистический корпус иврита
URL:

hebrewcorpus.nmelrc.org

Коммерческий:

нет

Тип сайта:

образовательный/научный проект

Регистрация:

есть

Язык(и):

английский, иврит

Расположение сервера:

Юта, США

Владелец:

National Middle East Language Resource Center, Brigham Young University

Начало работы:

2009

Текущий статус:

Работает и развивается

Лингвисти́ческий ко́рпус иври́та[1] — бесплатный интернет-ресурс, содержащий собрание текстов на иврите для лингвистического исследования языка. Корпус был создан Национальным Ближневосточным Языковым Ресурсным центром Университета Бригама Янга, США[2].

Составители[править]

Над корпусом работают специалисты NMELRC в сотрудничестве с Национальной Ассоциацией Профессоров Иврита.[3] Проект был создан Shmuel Bolozky после знакомства со сходным корпусом арабского языка arabiCorpus доктора Dilworth Parkinson[4].

Состав и структура[править]

Корпус включает в себя различные типы письменных текстов: художественная литература, научные и религиозные труды, конституционные и исторические документы, законы, энциклопедийные статьи, учебная литература, повседневная печатная продукция (газеты, таблоиды, журналы), коллекция неофициальных обсуждений (форумы, блоги), новостные статьи израильских СМИ, пословицы. В корпус также входят записи устных текстов: публичные речи, цитаты, высказывания известных личностей и частные беседы; собрание субтитров к 59 фильмам.

Корпус содержит 23 специфических подкорпуса[5], которые разделены на 5 групп. Поиск можно осуществлять как и отдельно по подкорпусу, так и по всей группе.

Название группы Подкорпуса, входящие в группу Количество слов
All News Arutz 7: 01-06, Beginning Newspapers, ErevErev[6]: 03-09, Haaretz: 90-91, Haaretz: 08, Maariv: 04-08, Raanana, TheMarker[7]: 02, Ynet: 00-09 52,691,299
All Literature Tanach, Mishnah, Early Fiction, Modern Fiction-Orig: 05-10, Modern Fiction-Tran: 05-10 7,084,703
All Coloquial Movies, Spoken, Tapuz Forums 1,563,677
All Specialized Journals, Knesset: 03-05 21,942,198
All Wiki Pages Wikibooks,Wikinews, Wikipedia, Wikiquote, Wikisource 73,142,443

Объем корпуса[править]

На данный момент корпус содержит более 150 млн слов.

Доступ[править]

Для того, чтобы воспользоваться возможностями корпуса, необходимо пройти бесплатную регистрацию.

Примечания[править]

  1. hebrewCorpus [1]англ.
  2. National Middle East Language Resource Center (NMELRC) Brigham Young University, USA [2]англ.
  3. National Association of Professors of Hebrew, University of Wisconsin, USA [3]англ.
  4. Creating hebrewCorpus: A Vast Online Resource for Modern Hebrew
  5. Подробное описание всех подкорпусов [4]англ.
  6. Информационно-новостной портал ErevErev [5]ивр.
  7. Информационный портал TheMarker [6]ивр.

Ссылки[править]

  • Лингвистический корпус иврита [7]англ.
  • Национальный Ближневосточный Языковой Ресурсный центр [8]англ.
  • Университет Бригама Янга [9]англ.
  • Национальная Ассоциация Профессоров Иврита [10]англ.