Аналитический курьер

Материал из Циклопедии
Перейти к навигации Перейти к поиску

«Аналитический курьер» — это система интеллектуального анализа текста на естественном языке, разрабатываемая российской компанией «Ай-Теко». «Аналитический курьер» является инструментом для решения целого ряда задач, среди которых автоматическое выделение ключевых тем из коллекции документов, установление связей между темами и объектами, автоматический анализ тональности текста и другие. Система работает с текстами на нескольких языках, в числе которых русский и английский.

В системе использована архитектура «клиент-сервер», при этом серверная часть реализована на платформе Microsoft.NET и предоставляет доступ клиентским приложениям через веб-интерфейс. Для хранилища аналитических данных используются СУБД MS SQL Server и ORACLE.

Функции[править]

По утверждению разработчиков, система характеризуется следующими возможностями:

  • параллельная обработка разнородной неструктурированной информации из различных источников, таких как сообщения СМИ и информационных агентств и ресурсов сети Интернет;
  • определение тональной окраски документов и отдельных объектов, включая выделение упоминаний и цитирования;
  • определение индекса информационной значимости объектов мониторинга;
  • выявление ключевых тем документа, коллекции документов и построение их взаимосвязей в виде семантической сети;
  • автоматическое общее и тематическое реферирование коллекций или отдельных документов, построение дайджестов по каждому объекту или теме документа и регламентный выпуск аналитических отчетов.[1]

Извлечение фактов[править]

В качестве источников для коллекций документов в системе используются материалы интернета. Система осуществляет постоянный мониторинг интернет-ресурсов, в числе которых социальные сети, блоги и форумы. При анализе текстов системой осуществляется их комплексный лингвистический анализ, включающий в себя разрешение анафоры и кореференции. Пользователь может осуществлять запросы к системе с использованием сложного языка поисковых запросов. Поиск информации в системе может осуществляться с учётом истории запросов конкретного пользователя. Выдача системы может быть представлена в виде корпуса релевантных документов, частотных распределений по корпусу или в виде семантической сети, отражающей массив выделенных тем и объектов, а также отношений между ними, Пользователь может выполнять анализ отдельных сущностей или их типов (например, персон, компаний, брендов).

Анализ тональности[править]

Компонент анализа тональности системы «Аналитический курьер» позволяет оценить эмоциональное отношение к определённым объектам или темам на основе их упоминаний в коллекции текстов. Компонент анализа тональности в системе «Аналитический курьер» основан на использовании словарей тонально окрашенной лексики и правил, вычисляющих тональность высказывания в зависимости от словарных характеристик входящих в него лексем и синтаксической конструкции. Так, «для предложения „Доктор Смит вылечил больного гриппом“), есть правило, которое говорит, что сочетание позитивного глагола „вылечить“ с негативной цепочкой (в данном случай „больной гриппом“) приписывает позитив подлежащему глагола (в нашем примере — „доктору Смиту“)»[2] При оценке тональности используется порядковая шкала («сильный позитив», «позитив», «слабый позитив», «нейтрально», «слабый негатив», «негатив», сильный негатив"). Данные, полученные от компонента анализа тональности, могут быть использованы для частотного анализа тональности корпуса документов по отношению к тем или иным темам.

Критика[править]

По мнению некоторых специалистов, к достоинствам системы «Аналитический курьер» относятся высокая степень автоматизации и адаптивности методов извлечения знаний, а также сравнительно невысокая стоимость использования по сравнению с аналогичными продуктами[3]. Среди отмечаемых недостатков — сложность работы с конкретными предметными областями[3] и отсутствие количественных оценок текста при анализе тональности[2].

Использование системы[править]

Система распространяется на коммерческой основе. Демонстрация работы некоторых компонентов системы доступна онлайн. Методы кластерного и семантического анализа текста, разработанные для системы «Аналитический курьер» нашли своё применение также в системе патентного поиска PatSearch, разработанного «Ай-Теко».[4]

Источники[править]

Ссылки[править]