Подход Усманова и Косимова к распознаванию авторства произведений
1. Задача распознавания авторства произведения.
Пусть — список авторов и — некоторое множество принадлежащих им текстов . Предположим, что разделено на две части, , из которых предназначается для разработки правила соответствия (отображения) «текст автор» (задача 1 обучения математической модели), а — для проверки эффективности разработанного правила (задача 2 тестирования математической модели).
Существование взаимосвязи между текстом и его автором составляет основу современной стилеметрии. С позиции статистики авторский стиль — это вероятностное явление. По существу любые элементы или же признаки, обнаруживаемые в текстах появляются с какими-то частотами, которые не подконтрольны автору и тем не менее несут информацию, характеризующую своего создателя.
В задаче распознавания автора текста приходится иметь дело с парой математических моделей: количественным описанием (образом) текста и моделью принятия решения (классификацией). И тех и других моделей — необозримые множества. В настоящее время описаны разнообразные пары моделей, использованные для исследовательских целей. Обилие возможных комбинаций элементов пары является причиной, по которой исследователи в настоящее время не затрагивают вопросы построения общей теории, ограничиваясь подбором высоко эффективных пар для решений конкретных задач распознавания авторства.
Обсуждаемая задача является частным случаем общей проблемы построения систем распознавания образов, состоящей в разработке оптимальных решающих процедур для классификации образов и идентификации объектов, как единичных реализаций образов. Поэтому все достижения в развитии распознающих систем находят применение в решении задач идентификации авторства.
2. Цифровой портрет печатного текста.
Введем ряд определений, которыми будем пользоваться в дальнейшем.
Определение 1. Алфавит - упорядоченное множество элементов текста.
Примерами элементов текста являются буквы естественного языка, символы и знаки препинания, буквенные n-граммы и слоги, леммы и морфемы, корни и основы слов, словоформы, тематические ключевые слова и ключевые n-граммы, длины слов и предложений и многое другое. Совокупность элементов, упорядоченных каким-либо образом, образует алфавит.
Определение 2. Цифровым портретом (ЦП) текста будем называть распределение частотности элементов алфавита.
Следовательно, цифровой портрет текста — это пара, составленная, с одной стороны, из упорядоченных элементов текста и, с другой стороны, из информации об относительной частоте встречаемости в тексте самих элементов. Таковыми примерами являются распределения частотностей упорядоченных символьных, буквенных и словоформных n-грамм, длин слов и предложений и т. д. ЦП текста записывается в табличном виде:
(1)
в котором первая строка — порядковые номера (индексы) алфавитных элементов (m — число элементов), а вторая ̶ их относительные частоты встречаемости в , причём
Цифровой портрет представляется также в виде дискретной функции
(2)
3. Расстояния между цифровыми портретами текстов
Пусть — произвольная пара текстов, характеризуемых на основе единого алфавита, и
(3)
соответствующие им ЦП, представленные дискретными функциями, и
Определение 3. Расстоянием между текстами и называется положительное число , определяемое формулой
(4)
то есть расстояние между двумя текстами вычисляется как максимальное расстояние по оси ординат между их дискретными функциями и , помноженное на весовой коэффициент . Отметим также, что равенство означает совпадение цифровых портретов Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle T_1} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle T_2} , но не самих текстов.
4. Гипотеза Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}} «однородности» особенностей авторского стиля
Обнаруживаемые в творчестве авторов «однородности» тех или иных особенностей стилей проявляются в их произведениях, словоупотреблениях, синтаксисе, композиции, интонациях, ритмах и многом другом. Не уточняя этого понятия, ограничимся тем, что сопоставим ему синонимы «похожий», «одинаковый», «сходный», «однотипный», «родственный» и т. п. Все они привязываются к понятию авторского стиля, который индивидуализирует творчество автора на фоне его коллег из писательского сообщества.
Гипотеза Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}} , связываемая с содержательным смыслом изучаемого вопроса, используется для решения задачи 1 путем подбора и последующей настройки математической модели. Наиболее естественной представляется следующая
ГИПОТЕЗА Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}} . Произведения одного автора — «однородные», а разных авторов — «неоднородные».
Произведение — широкое понятие. Оно характеризуются набором признаков. Но тогда свойство «однородности» произведений можно интерпретировать как «однородность» отдельных признаков или же их совокупностей. Следовательно, обсуждаемая гипотеза может быть высказана в следующем видоизменённом виде.
ГИПОТЕЗА Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}^*} . Конкретные признаки «однородны» во всех произведениях одного и того же автора и «не однородны» в произведениях разных авторов.
С такой точки зрения становится понятным, почему исследователи, занятые распознаванием авторства текста, имеют дело с его отдельными характеристиками, а не с текстами в целом. Так, например, распределения буквенных униграмм, биграмм, тиграмм (с пробелом и без пробела), слогов, морфем, словоформных n-граммы, длин предложений и абзацев и многие другие признаки также успешно распознают авторов текстовых фрагментов.
В литературе можно указать много примеров нарушения этой гипотезы, однако она принимается к исполнению, как первое приближение к реальной ситуации, позволяющей преобразовать гипотезу в математическую модель.
5. Математическая модель Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}} -гипотезы.
Пусть Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} — некоторое положительное число.
Определение 4. Тексты Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle T_1, \ T_2} называются Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} - однородными, если
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \rho(T_1,\ T_2)\leq\gamma,} (5)
и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} - неоднородными, если
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \rho(T_1,\ T_2)>\gamma.} (6)
Неравенства (5) и (6) являются математической интерпретацией (моделью) гипотезы Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}} .
Определение 5. Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} -классификатор — алгоритм, зависящий от одного вещественного параметра Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} и сопоставляющий тексту из Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {\displaystyle \mathbb {T} _{1}}} его автора из списка .
Очевидно, что от значения зависит однородность или неоднородность любой пары текстов, следовательно, и степень выполнимости гипотезы. Однородность всех текстов одного автора в рамках математической модели означает справедливость неравенства (5), а неоднородность любых двух текстов разных авторов — справедливость неравенства (6). Гипотеза может нарушаться для каких-то пар текстов одного и того же автора в случае, когда вместо неравенства (5) имеет место неравенство (6), а также в случае, когда какие-то два текста двух различных авторов удовлетворяют неравенству (5) вместо того, чтобы выполнялось неравенство (6).
Пусть — суммарное количество нарушений гипотезы одновременно в двух случаях: невыполнение неравенства «однородности» в случае двух текстов, принадлежащих одному автору, и невыполнение неравенства «неоднородности» в случае двух текстов, принадлежащих разным авторам. Тогда для фиксированного показатель выполнения гипотезы будет определяться величиной , задаваемой формулой
(7)
где — число взаимных расстояний между всеми парами текстов из подколекции Из этой формулы следует, что может принимать значения из отрезка [0, 1], причём , если , и , если . В первом случае гипотезу следует признать непригодной, а во втором — полностью согласованной с обучающей выборкой.
В связи с тем, что эффективность -классификатора зависит от значения параметра , представляет интерес найти такое его значение, при котором принимает максимальное значение. Именно в этом и заключается суть настройки -классификатора на данных обучающей выборки. Если такая настройка будет приемлемой, то можно говорить о решении задачи 1 обучения -классификатора.
6. Множество текстов , предназначенное для настройки -классификатора, предполагается разделенным на n непересекающихся подмножеств , состоящих из текстов, принадлежащих одному и тому же автору .
Для настройки -классификатора требуется знать:
— суммарное количество текстов множества ,
— общее число пар текстов на ,
— суммарное число всех пар авторских текстов (принадлежащих одним и тем же авторам).
— число пар между текстами различных авторов.
7. Алгоритм настройки -классификатора. Предположим, что обучающая выборка со всеми текстами, привязанными к своим авторам, задана и необходимые величины и либо известны заранее, либо уже вычислены.
Алгоритм включает в себя следующие основные процедуры.
1. По цифровым портретам (1) или (2) всех текстов обучающей выборки объёма Q с помощью формул (2) и (4) подсчитать расстояний между её текстами.
2. Полученный набор расстояний разделить на два множества = {} и = {}, в которых , , и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle y_j} , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle j=1,\ ..., \ h_2} , являются упорядоченными по возрастанию расстояниями между парами текстов, принадлежащих в первом случае подмножествам Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb T^{(k)}_1 } , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1,\ ..., \ n,} а во втором случае — разным подмножествам Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb T^{(k)}_1 } и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb T^{(l)}_1 } , причём Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k\not=l.} .
3. Подсчитать Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(x_i)} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(y_j)} — частотности чисел Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_i} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle y_j} . Очевидно, что
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle L_1= \sum\limits_{i=1}^{h_1} \lambda(x_i), \ \ \ \ \ L_2= \sum\limits_{j=1}^{h_2} \lambda(y_j)} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle L=L_1+L_2} .
4. Сформировать множество Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle Z=X \cup Y=\{Z_k\}} , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1,..,h} (Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle h\leq h_1+h_2} ), элементы которого Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_k} пронумерованы в порядке возрастания их значений, Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_1\leq z_2\leq ... \leq z_n} . Очевидно, что в связи с принятыми обозначениями Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_k} есть либо число Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_{i_{0}}\in X} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(x_{i_{0}})} , либо число Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle y_{j_{0}}\in Y} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(y_{j_{0}})} , либо число Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_{i_{00}}=y_{j_{00}}} , из которых Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_{i_{00}}} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(x_{i_{00}})} , а Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle y_{j_{00}}} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda (y_{j_{00}})} .
Числа Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_k} , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1,..,h} , разделяют числовую полуось Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z>0} на интервал Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle (0, \ z_1)} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle h} полуинтервалов Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_1, z_2),\ ..., \ [z_{h-1}, z_h)} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_h, \ \infty)} . Функция Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)} , определенная на вещественной полуоси Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle (0, \ \infty)} , принимает целочисленные постоянные значения в интервале Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle (0, \ z_1)} и на Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle h} полуинтервалах Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {\displaystyle [z_{1},z_{2}),\ ...,\ [z_{h-1},z_{h})}} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_h, \ \infty).}
Эти значения таковы:
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)\equiv\tau_1=L_1} при Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma \in(0, \ z_1);}
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)\equiv\tau_2} при Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma \in[z_1, \ z_2),} причём Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau_2=\tau_1+\Delta_1,}
где Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \Delta_1=\begin{cases} - \lambda(x_1) & \text{при} \ \ z_1=x_1, \\ \ \ \ \lambda(y_1) & \text{при} \ \ z_1=y_1, \\ \lambda(y_1)-\lambda(x_1) & \text{при} \ \ z_1=x_1=y_1; \end{cases} }
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)\equiv\tau_k} при Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma \in[z_{k-1}, \ z_k),} причём Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau_k=\tau_{k-1}+\Delta_{k-1},} ,
где Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \Delta_{k-1}=\begin{cases} - \lambda(x_{i_{0}}) & \text{при} \ \ z_{k-1}=x_{i_{0}}, \\ \ \ \ \lambda(y_{j_{0}}) & \text{при} \ \ z_{k-1}=y_{j_{0}}, \\ \lambda(y_{j_{00}})-\lambda(x_{i_{00}}) & \text{при} \ \ z_{k-1}=x_{i_{00}}=y_{j_{00}}. \end{cases}}
и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=3,\ ..., \ h} ;
и, наконец, Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)\equiv\tau_{h+1}=L_2} на полуинтервале Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_h, \ \infty).}
5. Вычислить значения Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau_1, \tau_2, \ ..., \tau_h, \tau_{h+1}} по формулам предыдущего пункта и выделить минимальное из них.
Пусть это будет Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau_{k^{*}}} где Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k^*=arg \ \underset{k}{min} \ \tau_k} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1, \ ..., \ h+1.} В таком случае эффективность кластеризатора будет характеризоваться величиной
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \pi(\tau_{k^{*}})=1-\tau_{k^{*}}/L,}
а область оптимального значения Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} определяться из условия
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma^{\text {опт}}=\begin{cases} & (0, \ z_1), & \text{если} \ \ k^*=1, \\ & [z_{k-1}, \ z_k), & \text{если} \ \ k^*=k=2, ..., h, \\ & \text {[}z_k, \infty), & \text{если} \ \ k^*=h+1. \end{cases}}
Вопрос о приемлемости полученного решения зависит от величины Если эта величина оказывается в определенном смысле близкой к единице, то можно признать, что предложенная математическая модель удачно настроена на данных обучающей выборки и тем самым откалиброванный кластеризатор можно использовать в качестве классификатора, подготовленного к выполнению своих функций (в частности для тестирования математической модели, то есть задачи 2).
8. Пояснения к описанию алгоритма. Как сказано ранее, обучение математической модели распознаванию авторства текста эквивалентно настройке -классификатора на данных обучающей выборки. Настройка производится за счет выбора оптимального значения , обеспечивающего достижение максимально возможного уровня выполнения гипотезы . Соответствующим показателем этого уровня является величина , вычисляемая по формуле (7). Эта величина, в свою очередь, связана со значением — суммарным числом случаев нарушений гипотезы который складывается из нарушений условий однородности пары текстов, принадлежащих одному автору, и нарушений условий неоднородности пары текстов, принадлежащих двум разным авторам.
Так как показатель зависит от , то было бы желательно иметь явный вид искомой зависимости. Однако, такой зависимости нет, и приводимый в п. 7 алгоритм является, по существу, набором процедур последовательного вычисления значений функции
Предварительный анализ свойств этой функции подсказывает, что она определена для значений на полуоси и является кусочно-гладкой с разрывами в точках , см. п.4 алгоритма. Указанные значения определяются по данным обучающей выборки, более точно, совокупностью расстояний между текстами множества
В п.2 совокупность расстояний разделяется на две части. В одной части с числом элементов собираются все расстояния между собственными текстами самих авторов, которые должны быть однородными в согласии с гипотезой В другой части с числом элементов — все расстояния между текстами различных авторов, которые должны быть неоднородными в согласии с той же гипотезой . Полученные наборы расстояний обозначаются через = {} и = {}, в которых , , и , , являются упорядоченными по возрастанию расстояниями между парами текстов, принадлежащих в первом случае подмножествам , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1, \ ..., \ n,} а во втором случае — разным подмножествам.
В п.4 формируется множество Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle Z=X \cup Y=\{Z_k\}} , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1,..,h} (Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle h\leq h_1+h_2} ), элементы которого Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_k} нумеруются в порядке возрастания их значений. Очевидно, что значение Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_k} есть либо число Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_{i_{0}}\in X} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(x_{i_{0}})} , либо число Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle y_{j_{0}}\in Y} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(y_{j_{0}})} , либо число Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_{i_{00}}=y_{j_{00}}} , из которых Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle x_{i_{00}}} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda(x_{i_{00}})} , а Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle y_{j_{00}}} с частотой Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \lambda (y_{j_{00}})} .
Числа Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_k} , Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle k=1,..,h} , разделяют числовую полуось Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z>0} на интервал Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle (0, \ z_1)} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle h} полуинтервалов Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_1, z_2),\ ..., \ [z_{h-1}, z_h)} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_h, \ \infty)} . Функция Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)} принимает целочисленные постоянные значения в интервале Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle (0, \ z_1)} и на Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle h} полуинтервалах Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle {\displaystyle [z_{1},z_{2}),\ ...,\ [z_{h-1},z_{h})}} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle [z_h, \ \infty).} Скачки значений функции Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)} происходят в точках Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle z_1, \ z_2, \ ..., \ z_h} и, как устанавливается в п.4, имеем
Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)=\begin{cases} L_1 & \text{при} \ \ \gamma\in(0, \ z_1), \\ \tau(z_1) & \text{при} \ \ \gamma\in[z_1, \ z_2), \\ \tau(z_{k-1}) & \text{при} \ \ \gamma\in[z_{k-1}, \ z_k) & \text{и} \ \ k=3, \ ..., \ h, \\ L_2 & \text{при} \ \ \gamma\in[z_h, \ \infty). \end{cases}}
Остается определить минимальное значение Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \tau(\gamma)} и далее поступать так, как указано в п.5 алгоритма.
9. Замечание. Обратим внимание на то, что гипотезы Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}} и Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}^*,} настроенные на идентификацию авторства и особенности авторского стиля, могут быть переориентированы также и на другие цели.
К примеру, если различать произведения по различным тематикам, то Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}^{**}} — гипотезу для настройки Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} -классификатора естественно формулировать в следующем виде: любые произведения по одной тематике"однородны", а по разным — «не однородны». И опять таки неравенства (5) и (6) можно рассматривать в качестве математической интерпретации (модели) Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}^{**}} — гипотезы.
Другой пример — распознавание языков произведений. В этом случае Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}^{**}} — гипотеза формулируется в слегка видоизмененном виде: любые произведения, написанные на одном языке, «однородны», а на разных — «не однородны». И опять неравенства (5) и (6) выступают в качестве математической интерпретации Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \mathbb{H}^{**}} — гипотезы.
Важно отметить, что плодотворность гипотез зависит не только от Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} -классификатора, но также и от тщательно подобранного цифрового портрета объекта исследования.
Литература[править]
- З. Д. Усманов, А. А. Косимов. О распознавании авторства таджикского текста. Доклады Академии наук Республики Таджикистан, 2016, т.59, № 3-4, с. 114—119.
- З. Д. Усманов. Классификатор дискретных случайных величин. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 7-8, с. 291—300.
З. Д. Усманов. Алгоритм настройки кластеризатора дискретных случайных величин. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 9, с. 392—397.
З. Д. Усманов. N-граммы в распознавании однородных текстов. Материалы 20 научно-практического семинара «Новые информационные технологии в автоматизированных системах», Москва 2017, № 20, с. 52-54.
А. А. Косимов. Оценка эффективности использования униграмм при идентификации текста. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 3-4, с. 132—137.
А. А. Косимов. Оценка эффективности использования биграмм при идентификации текста. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 5-6, с. 224—229.
А. А. Косимов. Оценка эффективности использования триграмм при идентификации текста. Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2017, № 1 (166), с. 51-57.
А. А. Косимов. О минимальном объёме текста, необходимого для распознавания его автора. Доклады Академии наук Республики Таджикистан, 2017, т.60, № 9, с. 398—401.
А. А. Косимов. О минимальном числе высокоточных n-грамм, необходимых для распознавания автора текста. Российско-китайский научный журнал «Содружество», Ежемесячный научный журнал, научно-практической конференции, 2017, часть 1, № 17, с. 58-59.
З. Д. Усманов, А. А. Косимов. О метризации произведений художественной литературы. Материалы 21 научно-практического семинара «Новые информационные технологии в автоматизированных системах», Москва 2018, № 21, с.183-186.
З. Д. Усманов, А. А. Косимов. О применимости Невозможно разобрать выражение (SVG с запасным PNG (MathML можно включить с помощью плагина для браузера): Недопустимый ответ («Math extension cannot connect to Restbase.») от сервера «https://wikimedia.org/api/rest_v1/»:): {\displaystyle \gamma} -классификатора к распознаванию авторства и тематики художественных произведений. Материалы 22 научно-практического семинара «Новые информационные технологии в автоматизированных системах», Москва 2019, № 22, с. 174—178.
З. Д. Усманов, А. А. Косимов. К вопросу об автоматическом распознавании авторства и стилей произведений таджикско-персидской художественной литературы. Доклады Академии наук Республики Таджикистан, 2020, т.63, № 1-2, с. 49-54.
З. Д. Усманов, А. А. Косимов. О влиянии цифрового портрета текста на распознавание автора произведения. Известия Академии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук, 2020.