Токенизатор

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Токенизатор (лексер, лексический анализатор) — программа, которая разбивает исходное выражение на отдельные части — лексические единицы, лексемы, или токены[1].

Общая информация[править]

Существует достаточно много токенизаторов, и каждый из них имеет свои «светлые» и «темные» стороны. Одни из них лучше справляются с определенными типами текстовых данных, а другие — с какими‑то ещё.[2]

Бывают токенизаторы[3]:

  • основанные на обработке слов (word-based)
  • основанные на обработке символов (character-based)

Популярные токенизаторы[править]

Прежде чем выбирать конкретный токенизатор, важно протестировать его работу на конкретных данных.

Иногда один токенизатор не может обеспечить наилучшие результаты для всех типов текстовых данных. В таких случаях может быть полезно использовать несколько для одной задачи. Например, можно применить один токенизатор для текстов с многофразовыми выражениями и идиомами, а другой — для научных текстов.[2]

См.также[править]

Источники[править]