Индексирование документов

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Индексирование — присвоение документу набора ключевых слов или кодов, которые служат указателем содержания документа и используются для его поиска. Следует не путать понятия «индексирование» и «индексация», поскольку эти понятия разные. Индексирование — процесс перевода содержания документов с естественного языка на искусственный информационно-поисковый язык (ИПЯ), в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ). Таким образом происходит свертывание информации, находящейся в документе, и преобразование её в ИПЯ в виде индекса, рубрики, кода (классификационным языком) или дескриптора, ключевого слова (дескрипторным языком)[1].

Индексацией называется система и совокупность обозначений, принятая для документной классификации. Она выполняет несколько основных функций: закрепляет логическую структуру классификации, выступает средством связи между делениями таблиц, рубриками АПП, отделами на книжных полках при систематической расстановке, средством записи результатов систематизации в библиографических записях, в самих изданиях и т. д.[2].

Понятие и суть индексирования документов[править]

Индексирование — это процесс выражения содержания документа или запроса на информационно-поисковом языке. Он представляет собой не описание документа как физического объекта (создание библиографического описания, определение вида, носителя информации и т. д.), а является его интеллектуальным анализом, то есть раскрывает его содержание с помощью систем классификации, тезаурусов, словарей предметных рубрик, авторитетных файлов[3].

Суть индексирования заключается в том, чтобы передать содержание документов, а в случае необходимости и некоторые формальные признаки в виде коротких закодированных сообщений, так называемых поисковых образов документов (ПОД). Наличие ПОД обеспечивает дальнейший поиск документов благодаря сопоставлению ПОД с поисковым предписанием.

Это задача присвоения документам (их копиям, графическим образам, электронным файлам документов), позволяющих быстро классифицировать, сортировать и искать информацию в архиве, содержащуюся в документах, в архиве без просмотра самого документа. Простейшей формой индексирования является картотека в обычной библиотеке, которая позволяет найти нужную книгу без физического доступа к самому носителю[4].

Способы индексирования[править]

Известны два способа индексирования:

  • свободное — это когда непосредственно из содержания документа выделяют ключевые слова без учёта всех видоизменений их форм и отношений между ними;
  • контролируемое — это когда в поисковый образ документа включаются только те слова, которые зафиксированы в словаре ключевых слов, в котором указаны их синонимические, родовидовые и ассоциативные отношения[5].

Поисковый образ как результат индексирования[править]

Результатом индексирования документа является его поисковый образ (ПОД), выражающий основное содержание документа, то есть представляющий собой набор индексов (лексических единиц) ИПЯ, соответствующих основным предметам и аспектам содержания документа[6].

Информационно-поисковый язык (ИПЯ) и требования к нему[править]

Сегодня существует много информационно-поисковых языков (ИПЯ), различающихся по своему назначению и принципам построения. Информационно-поисковые языки, базирующиеся на различных классификациях — это ИПЯ классификационного типа. Они предназначены для индексирования документов и информационных запросов на основе индексов классификационных систем — ББК, УДК, ДКД, ГРНТИ и т. д. Для того, чтобы качественно осуществить процесс индексирования, необходимо понять сущность ИПЯ. Индексирование осуществляется на основе информационно-поисковых языков. ИПЯ является основным элементом логико-семантического аппарата информационно-поисковых систем (ИПС). Информационно-поисковый язык (ИПЯ) — это специализированный искусственный язык, предназначенный для передачи содержания и формальных признаков документов, а также информационных запросов поиска нужных документов. Необходимость создания искусственного языка для выражения смыслового содержания информации с целью её поиска обусловлена тем, что естественный язык, то есть язык, с помощью которого мы общаемся, обладает такими свойствами, которые отрицают его использование для записи и поиска информации. К таким свойствам главным образом относится неоднозначность и многозначность терминов естественного языка. Трудности использования естественного языка, как ИПЯ, обусловлены ещё тем, что в ИПС используются как входные документы не полные тексты, а рефераты, аннотации, библиографические описания, которые являются результатом свертывания содержания документов[7].

Требования к ИПЯ:

  • Однозначность (то есть, каждая запись ИПЯ должна иметь только одно содержательное значение, объяснение, одинаковую форму записи средствами ИПЯ);
  • Достаточная семантическая сила (то есть, способность отображать с необходимой полнотой и точностью смысловое содержание документов и запросов определённой предметной области);
  • Открытость (то есть, обеспечение возможности корректировать язык)[8].

Виды индексирования документов[править]

В зависимости от ИПЯ, используемого в том или ином поисковом массиве, документы подлежат обработке по следующим видам индексирования:

Систематизация — это упорядочение набора информации (собранной, обработанной и проанализированной) по определенной структуре. Процесс систематизации результатов научного экономического исследования состоит в приведении собранных и обработанных (проанализированных) данных в последовательное научно-аргументированное изложение. Существуют следующие виды систематизации: кодификация, инкорпорация и консолидация.

Кодификация — способ усовершенствования, систематизации нормативных актов, законодательства. Во время кодификации проводится: — содержательная переработка (устранение разногласий и противоречий, отмена устаревших норм) связанной общим предметом регулирования, группы юридических норм и объединение их в едином нормативно-правовом акте. Кодифицированными документами считаются кодексы, уставы, положения. В результате кодификации издается единый, логически и юридически цельный, нормативно-правовой акт. Кодификация обычно носит официальный характер и проводится правотворческим органом.

Инкорпорация — это простейшая форма упорядочения нормативно-правовых актов, которая заключается в объединении группы действующих нормативно-правовых актов в одном сборнике по определенному критерию (хронологическому, тематическому и т.д.) без изменения их содержания[6].

Систематизация обеспечивает разграничение и дальнейшее объединение не отдельных предметов, как это происходит при классификации, а их групп и классов.

Предметизация — это определение предметной рубрики, которая соответствует содержанию, форме и назначению документа. Предметизационный язык предназначен для индексирования документов и информационных запросов с помощью предметных рубрик. В основу предметизационного языка положен алфавитный перечень предметных рубрик, представляющих унифицированные короткие формулировки темы на естественном языке[9]. Одним из важнейших процессов индексирования является предметизация документов. Он традиционно состоит из нескольких операций:

  • анализ содержания и формы документа с целью определения предмета, аспектов его рассмотрения и выявления связи между ними;
  • определение основных содержательных терминов, представленных в тексте, и формулирование из них рубрик, отражающих выявленные связи;
  • унификация формулировки рубрик с помощью словарей предметных рубрик;
  • редактирование рубрик, то есть проверка их соответствия правилам предметизации и нормативным документам, принятым библиотекой или корпорацией[8].

Координатное индексирование — это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Для координатного индексирования важно умение находить информативное слово — слово или словосочетание в тексте документа или запроса, несущие существенную смысловую нагрузку. Ключевое слово — информативное слово, приведенное к стандартной лексической форме и использованное для координатного индексирования.

Дескриптор — лексическая единица, выраженная информативным словом или кодом и является именем класса синонимических или близких по смыслу ключевых слов. Дескрипторный язык служит для координатного, или как его еще называют, «свободного» индексирования документов и запросов с помощью дескрипторов или ключевых слов. В основе дескрипторных ИПЯ лежит алфавитный перечень лексических единиц. Они позволяют достаточно подробно и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются, обновляются, поскольку в алфавитный перечень можно включить любую лексическую единицу, необходимую для индексирования. Кроме того, в автоматизированную технологию широко вошли в употребление язык библиографического описания, объектноознаковые и фактографические поисковые языки. В практике библиотек используется два метода координатного индексирования документов:

  • свободное индексирование, которое предполагает замену, при необходимости, информативных слов текста в соответствии с рекомендациями специального словаря;
  • контролируемое индексирование — информативные слова текста заменяются дескрипторами, приведенными в определенном информационно-поисковом тезаурусе или дескрипторном словаре.

Свободное индексирование по удобству использования и доступности превосходит индексирование с контролем лексики. Но автоматизация процессов обработки, поиска документов больше ориентирована на работу со строго формализованной информацией, где все поисковые признаки и понятия представляются в одинаковой форме. Объектами индексирования в библиотеках могут выступать различные виды документов. Объект индексирования устанавливается на этапе составления библиографической записи (БЗ) документа, что позволяет его идентифицировать, раскрыть его состав и содержание с целью его библиографического поиска. В соответствии с требованиями стандартов в методику координатного индексирования входят следующие взаимозависимые этапы:

  1. Анализ и определение содержания документа как объекта индексирования;
  2. Выявление и подбор смысловых понятий на естественном языке;
  3. Выбор терминов индексирования для обозначения смысловых понятий с учетом специфики библиотеки, информационных потребностей читателей;
  4. Формирование поискового образа документа[10].

Методика индексирования документов[править]

Процесс индексирования включает следующие правила:

  • полно и точно передавать содержание документа;
  • ключевые слова должны отражать содержание по тексту, разделам, предисловию, аннотации документа.

Правила индексирования хорошо согласованы между собой и обеспечивают тесную взаимосвязь многих технологических и лингвистических решений, принятых при построении и использовании основных элементов системы в ряду «комплектование — программное обеспечение — индексирование информации — процесс проведения поиска».

Для индексирования документов применяются поля «Номера, индексы, коды», поля примечаний и поля предметного доступа. Каждый документ рассматривается со следующих аспектов:

  1. Тема (основная рубрика);
  2. Персоналия (организация, мероприятие, унифицированное название);
  3. Территория (географическое название, географические подразделения);
  4. Хронология (хронологический период);
  5. Профессия.

Также определяются:

  1. Читательское назначение. Без четкого читательского назначения рекомендательный указатель не может быть полноценным. От такого назначения зависит отбор литературы для указателя, методы его рекомендации.
  2. Жанр[3].

Процесс индексирования можно представить в виде следующих операций. Просматривая документ, определяют его основную тему, а также затронутые в нем второстепенные вопросы, которые могут представлять интерес для конкретной группы пользователей. Затем составляется мысленная аннотация на документ, включающая ключевые слова, характеризующие его содержание. Далее ключевые слова заменяются лексическими единицами информационно-поисковых языков (ИПЯ): классификационными индексами и предметными рубриками. В результате мы получаем образ документа на информационно-поисковом языке[2].

Показатели качества индексирования[править]

Качество индексирования определяется двумя показателями:

  • глубиной;
  • детальностью.

Глубина индексирования характеризует полноту раскрытия содержания документа в присвоенном ему поисковом виде. Глубину индексирования можно приблизительно оценить числом слов ИПЯ, включенных индикатором в поисковый образ. Детальное индексирование характеризует точное отображение содержания документа в поисковом виде. Точность отображения определяется смысловой близостью ключевых слов, включенных в мысленную аннотацию, слов ИПН, образовавших поисковый образ[1].

Примечания[править]

  1. 1,0 1,1 Власова Г. В. Індексування як процес аналітико-синтетичної переробки Інформації [Текст] : навч.посіб. / Г. В. Власова. — К., 2006. — С. 172.
  2. 2,0 2,1 Сукиасян Э. Р. Школа индексирования [Текст]: практ. пособие. / Э. Р. Сукиасян. — М., 2005. — 143 с.
  3. 3,0 3,1 Кушнаренко Н. М., Удалова В. А. Наукова обробка документів [Текст] : підручник. — 4-те вид. перероб. і доп. — К. : Знання, 2006. —334с.
  4. Кушнаренко Н. М Наукова обробка документів [Текст] : Підручник / Наталя Миколаївна Кушнаренко, Валерія Костянтинівна Удалова. — 4-те вид., перероб. і доп. — К.: Знання, 2006. — 334 с. — ISBN 966-346-234-5.
  5. Кушнаренко Н. Н. Документоведение [Текст] : Учебник / Наталия Николаевна Кушнаренко. — 7-е изд., стер. — К.: Знання, 2006. — 459 с.
  6. 6,0 6,1 Зупарова Л. Б Аналитико-синтетическая переработка информации [Текст] / Л. Б. Зупарова, Т. А. Зайцева; под ред. Ю. Н. Столярова. — М.:ФАИР, 2007. — 400 с. — ISBN 978-5-8183-1248-4.
  7. Автоматизовані інформаційно-пошукові мови [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://ubooks.com.ua/books/00092/inx13.php Архивировано из первоисточника 3 грудня 2013.
  8. 8,0 8,1 Пошукові системи [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chaynikam.info/ukr/poiskovie_systemi.html Архивировано из первоисточника 1 травня 2012.
  9. Предметизація документів [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chl.kiev.ua/default.aspx?id=5782 Архивировано из первоисточника 3 грудня 2013.
  10. Сукиасян Э. Р. Координатное индексирование : выбор терминов индексирования и формирование поискового образа документа[Текст] / Э. Р. Сукиасян // Библиотека. — 2005. — № 3. — С. 42.
Руниверсалис

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «Индексирование документов», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA.

Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?».