Индексирование документов
Индексирование — присвоение документу набора ключевых слов или кодов, которые служат указателем содержания документа и используются для его поиска. Следует не путать понятия «индексирование» и «индексация», поскольку эти понятия разные. Индексирование — процесс перевода содержания документов с естественного языка на искусственный информационно-поисковый язык (ИПЯ), в результате чего создается поисковый образ документа (ПОД) и поисковый образ запроса (ПОЗ). Таким образом происходит свертывание информации, находящейся в документе, и преобразование её в ИПЯ в виде индекса, рубрики, кода (классификационным языком) или дескриптора, ключевого слова (дескрипторным языком)[1].
Индексацией называется система и совокупность обозначений, принятая для документной классификации. Она выполняет несколько основных функций: закрепляет логическую структуру классификации, выступает средством связи между делениями таблиц, рубриками АПП, отделами на книжных полках при систематической расстановке, средством записи результатов систематизации в библиографических записях, в самих изданиях и т. д.[2].
Понятие и суть индексирования документов[править]
Индексирование — это процесс выражения содержания документа или запроса на информационно-поисковом языке. Он представляет собой не описание документа как физического объекта (создание библиографического описания, определение вида, носителя информации и т. д.), а является его интеллектуальным анализом, то есть раскрывает его содержание с помощью систем классификации, тезаурусов, словарей предметных рубрик, авторитетных файлов[3].
Суть индексирования заключается в том, чтобы передать содержание документов, а в случае необходимости и некоторые формальные признаки в виде коротких закодированных сообщений, так называемых поисковых образов документов (ПОД). Наличие ПОД обеспечивает дальнейший поиск документов благодаря сопоставлению ПОД с поисковым предписанием.
Это задача присвоения документам (их копиям, графическим образам, электронным файлам документов), позволяющих быстро классифицировать, сортировать и искать информацию в архиве, содержащуюся в документах, в архиве без просмотра самого документа. Простейшей формой индексирования является картотека в обычной библиотеке, которая позволяет найти нужную книгу без физического доступа к самому носителю[4].
Способы индексирования[править]
Известны два способа индексирования:
- свободное — это когда непосредственно из содержания документа выделяют ключевые слова без учёта всех видоизменений их форм и отношений между ними;
- контролируемое — это когда в поисковый образ документа включаются только те слова, которые зафиксированы в словаре ключевых слов, в котором указаны их синонимические, родовидовые и ассоциативные отношения[5].
Поисковый образ как результат индексирования[править]
Результатом индексирования документа является его поисковый образ (ПОД), выражающий основное содержание документа, то есть представляющий собой набор индексов (лексических единиц) ИПЯ, соответствующих основным предметам и аспектам содержания документа[6].
Информационно-поисковый язык (ИПЯ) и требования к нему[править]
Сегодня существует много информационно-поисковых языков (ИПЯ), различающихся по своему назначению и принципам построения. Информационно-поисковые языки, базирующиеся на различных классификациях — это ИПЯ классификационного типа. Они предназначены для индексирования документов и информационных запросов на основе индексов классификационных систем — ББК, УДК, ДКД, ГРНТИ и т. д. Для того, чтобы качественно осуществить процесс индексирования, необходимо понять сущность ИПЯ. Индексирование осуществляется на основе информационно-поисковых языков. ИПЯ является основным элементом логико-семантического аппарата информационно-поисковых систем (ИПС). Информационно-поисковый язык (ИПЯ) — это специализированный искусственный язык, предназначенный для передачи содержания и формальных признаков документов, а также информационных запросов поиска нужных документов. Необходимость создания искусственного языка для выражения смыслового содержания информации с целью её поиска обусловлена тем, что естественный язык, то есть язык, с помощью которого мы общаемся, обладает такими свойствами, которые отрицают его использование для записи и поиска информации. К таким свойствам главным образом относится неоднозначность и многозначность терминов естественного языка. Трудности использования естественного языка, как ИПЯ, обусловлены ещё тем, что в ИПС используются как входные документы не полные тексты, а рефераты, аннотации, библиографические описания, которые являются результатом свертывания содержания документов[7].
Требования к ИПЯ:
- Однозначность (то есть, каждая запись ИПЯ должна иметь только одно содержательное значение, объяснение, одинаковую форму записи средствами ИПЯ);
- Достаточная семантическая сила (то есть, способность отображать с необходимой полнотой и точностью смысловое содержание документов и запросов определённой предметной области);
- Открытость (то есть, обеспечение возможности корректировать язык)[8].
Виды индексирования документов[править]
В зависимости от ИПЯ, используемого в том или ином поисковом массиве, документы подлежат обработке по следующим видам индексирования:
Систематизация — это упорядочение набора информации (собранной, обработанной и проанализированной) по определенной структуре. Процесс систематизации результатов научного экономического исследования состоит в приведении собранных и обработанных (проанализированных) данных в последовательное научно-аргументированное изложение. Существуют следующие виды систематизации: кодификация, инкорпорация и консолидация.
Кодификация — способ усовершенствования, систематизации нормативных актов, законодательства. Во время кодификации проводится: — содержательная переработка (устранение разногласий и противоречий, отмена устаревших норм) связанной общим предметом регулирования, группы юридических норм и объединение их в едином нормативно-правовом акте. Кодифицированными документами считаются кодексы, уставы, положения. В результате кодификации издается единый, логически и юридически цельный, нормативно-правовой акт. Кодификация обычно носит официальный характер и проводится правотворческим органом.
Инкорпорация — это простейшая форма упорядочения нормативно-правовых актов, которая заключается в объединении группы действующих нормативно-правовых актов в одном сборнике по определенному критерию (хронологическому, тематическому и т.д.) без изменения их содержания[6].
Систематизация обеспечивает разграничение и дальнейшее объединение не отдельных предметов, как это происходит при классификации, а их групп и классов.
Предметизация — это определение предметной рубрики, которая соответствует содержанию, форме и назначению документа. Предметизационный язык предназначен для индексирования документов и информационных запросов с помощью предметных рубрик. В основу предметизационного языка положен алфавитный перечень предметных рубрик, представляющих унифицированные короткие формулировки темы на естественном языке[9]. Одним из важнейших процессов индексирования является предметизация документов. Он традиционно состоит из нескольких операций:
- анализ содержания и формы документа с целью определения предмета, аспектов его рассмотрения и выявления связи между ними;
- определение основных содержательных терминов, представленных в тексте, и формулирование из них рубрик, отражающих выявленные связи;
- унификация формулировки рубрик с помощью словарей предметных рубрик;
- редактирование рубрик, то есть проверка их соответствия правилам предметизации и нормативным документам, принятым библиотекой или корпорацией[8].
Координатное индексирование — это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Для координатного индексирования важно умение находить информативное слово — слово или словосочетание в тексте документа или запроса, несущие существенную смысловую нагрузку. Ключевое слово — информативное слово, приведенное к стандартной лексической форме и использованное для координатного индексирования.
Дескриптор — лексическая единица, выраженная информативным словом или кодом и является именем класса синонимических или близких по смыслу ключевых слов. Дескрипторный язык служит для координатного, или как его еще называют, «свободного» индексирования документов и запросов с помощью дескрипторов или ключевых слов. В основе дескрипторных ИПЯ лежит алфавитный перечень лексических единиц. Они позволяют достаточно подробно и многоаспектно раскрывать содержание документов. Дескрипторы и ключевые слова легко дополняются, обновляются, поскольку в алфавитный перечень можно включить любую лексическую единицу, необходимую для индексирования. Кроме того, в автоматизированную технологию широко вошли в употребление язык библиографического описания, объектноознаковые и фактографические поисковые языки. В практике библиотек используется два метода координатного индексирования документов:
- свободное индексирование, которое предполагает замену, при необходимости, информативных слов текста в соответствии с рекомендациями специального словаря;
- контролируемое индексирование — информативные слова текста заменяются дескрипторами, приведенными в определенном информационно-поисковом тезаурусе или дескрипторном словаре.
Свободное индексирование по удобству использования и доступности превосходит индексирование с контролем лексики. Но автоматизация процессов обработки, поиска документов больше ориентирована на работу со строго формализованной информацией, где все поисковые признаки и понятия представляются в одинаковой форме. Объектами индексирования в библиотеках могут выступать различные виды документов. Объект индексирования устанавливается на этапе составления библиографической записи (БЗ) документа, что позволяет его идентифицировать, раскрыть его состав и содержание с целью его библиографического поиска. В соответствии с требованиями стандартов в методику координатного индексирования входят следующие взаимозависимые этапы:
- Анализ и определение содержания документа как объекта индексирования;
- Выявление и подбор смысловых понятий на естественном языке;
- Выбор терминов индексирования для обозначения смысловых понятий с учетом специфики библиотеки, информационных потребностей читателей;
- Формирование поискового образа документа[10].
Методика индексирования документов[править]
Процесс индексирования включает следующие правила:
- полно и точно передавать содержание документа;
- ключевые слова должны отражать содержание по тексту, разделам, предисловию, аннотации документа.
Правила индексирования хорошо согласованы между собой и обеспечивают тесную взаимосвязь многих технологических и лингвистических решений, принятых при построении и использовании основных элементов системы в ряду «комплектование — программное обеспечение — индексирование информации — процесс проведения поиска».
Для индексирования документов применяются поля «Номера, индексы, коды», поля примечаний и поля предметного доступа. Каждый документ рассматривается со следующих аспектов:
- Тема (основная рубрика);
- Персоналия (организация, мероприятие, унифицированное название);
- Территория (географическое название, географические подразделения);
- Хронология (хронологический период);
- Профессия.
Также определяются:
- Читательское назначение. Без четкого читательского назначения рекомендательный указатель не может быть полноценным. От такого назначения зависит отбор литературы для указателя, методы его рекомендации.
- Жанр[3].
Процесс индексирования можно представить в виде следующих операций. Просматривая документ, определяют его основную тему, а также затронутые в нем второстепенные вопросы, которые могут представлять интерес для конкретной группы пользователей. Затем составляется мысленная аннотация на документ, включающая ключевые слова, характеризующие его содержание. Далее ключевые слова заменяются лексическими единицами информационно-поисковых языков (ИПЯ): классификационными индексами и предметными рубриками. В результате мы получаем образ документа на информационно-поисковом языке[2].
Показатели качества индексирования[править]
Качество индексирования определяется двумя показателями:
- глубиной;
- детальностью.
Глубина индексирования характеризует полноту раскрытия содержания документа в присвоенном ему поисковом виде. Глубину индексирования можно приблизительно оценить числом слов ИПЯ, включенных индикатором в поисковый образ. Детальное индексирование характеризует точное отображение содержания документа в поисковом виде. Точность отображения определяется смысловой близостью ключевых слов, включенных в мысленную аннотацию, слов ИПН, образовавших поисковый образ[1].
Примечания[править]
- ↑ 1,0 1,1 Власова Г. В. Індексування як процес аналітико-синтетичної переробки Інформації [Текст] : навч.посіб. / Г. В. Власова. — К., 2006. — С. 172.
- ↑ 2,0 2,1 Сукиасян Э. Р. Школа индексирования [Текст]: практ. пособие. / Э. Р. Сукиасян. — М., 2005. — 143 с.
- ↑ 3,0 3,1 Кушнаренко Н. М., Удалова В. А. Наукова обробка документів [Текст] : підручник. — 4-те вид. перероб. і доп. — К. : Знання, 2006. —334с.
- ↑ Кушнаренко Н. М Наукова обробка документів [Текст] : Підручник / Наталя Миколаївна Кушнаренко, Валерія Костянтинівна Удалова. — 4-те вид., перероб. і доп. — К.: Знання, 2006. — 334 с. — ISBN 966-346-234-5.
- ↑ Кушнаренко Н. Н. Документоведение [Текст] : Учебник / Наталия Николаевна Кушнаренко. — 7-е изд., стер. — К.: Знання, 2006. — 459 с.
- ↑ 6,0 6,1 Зупарова Л. Б Аналитико-синтетическая переработка информации [Текст] / Л. Б. Зупарова, Т. А. Зайцева; под ред. Ю. Н. Столярова. — М.:ФАИР, 2007. — 400 с. — ISBN 978-5-8183-1248-4.
- ↑ Автоматизовані інформаційно-пошукові мови [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://ubooks.com.ua/books/00092/inx13.php Архивировано из первоисточника 3 грудня 2013.
- ↑ 8,0 8,1 Пошукові системи [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chaynikam.info/ukr/poiskovie_systemi.html Архивировано из первоисточника 1 травня 2012.
- ↑ Предметизація документів [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL : http://www.chl.kiev.ua/default.aspx?id=5782 Архивировано из первоисточника 3 грудня 2013.
- ↑ Сукиасян Э. Р. Координатное индексирование : выбор терминов индексирования и формирование поискового образа документа[Текст] / Э. Р. Сукиасян // Библиотека. — 2005. — № 3. — С. 42.
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «Индексирование документов», расположенная по адресу:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA. Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?». |
---|