Тошнота текста

Материал из Циклопедии
Перейти к навигации Перейти к поиску
Тошнота текста: что это и как ее избежать // SEMANTICA [6:09]
Что такое тошнота текста, для чего нужна, как ее проверить и снизить? // Anti Antiplagiat [10:09]

Тошнота текста — показатель оценки качества текста.

Общая информация[править]

Интернет-пользователи широко пользуются предоставляемыми поисковыми системами функциями поиска, в частности, текстов с интересующей их информацией. При получении текстового запроса (обычно ограниченного по длине) поисковая система (Google, Яндекс, Bing и пр.), в соответствии с запрограммированным алгоритмом предоставляет пользователю ранжированный список сайтов, могущих предоставлять интерес, и содержащих информацию, релевантную поиску.

С целью добиться преимуществ для своих страниц в выдаче, для создателей сайтов разработан ряд показателей, позволяющих сделать прогноз оценки содержания сайта до его выставления в сеть. Один из таких показателей — показатель «Тошнота текста» биржи контента Advego.

Конфликт интересов[править]

В интересах пользователя создать правильный текстовый запрос, согласно которому на первых местах в выдаче окажутся наиболее отвечающие запросу сайты, в интересах владельцев сайтов добиться в выдачах приоритета перед сайтами конкурентов, при этом недобросовестные владельцы сайтов готовы воспользоваться любыми схемами (в том числе и ухудшающими изложение материала), чтобы добиться повышения оценки сайта алгоритмами поисковой системы.

Файл:SEO 098.png
Концепты, связанные с поисковой оптимизацией.

Обозначенный выше конфликт интересов привел к своеобразной гонке «брони и снаряда» — в интересах владельцев сайта создана стратегия интернет-маркетинга «Поисковая оптимизация» (англ. search engine optimization, SEO). Впервые веб-мастера и поставщики интернет-контента прибегли к оптимизации сайтов (исключительно для поисковых систем) в середине 1990-х годов. Фраза «поисковая оптимизация» стала популярной в 1997 году.

Концепции поисковых алгоритмов непрерывно менялись, и в настоящее время считаются засекреченными. Если первые версии алгоритмов использовали предоставляемые веб-мастерами данные (метатеги ключевых слов и пр.), то от этого принципа вскоре отказались — на первых местах в выдаче оказывались, вследствие недобросовестности части веб-мастеров, сайты далекого от запрашиваемого содержания.

Для предотвращения подобных манипуляций с рейтингом, поисковые системы скорректировали свои алгоритмы. Алгоритмы ранжирования стали учитывать дополнительные факторы, с трудом поддающиеся манипуляциям, а сайты компаний, использующих агрессивные методы, исключались из результатов поиска. Тем не менее, ряд поисковых систем поддерживают SEO-индустрию, и предоставляют рекомендации по оптимизации сайтов.

Шуточная демистификация принципа поисковой оптимизации.

Наряду со страничными факторами, поисковые машины стали использовать и внестраничные факторы, в частности, анализ гиперссылок (их качества и силы). К 2004 году поисковые системы были вынуждены включить в алгоритмы множество нераскрываемых факторов. Так, считалось, что Google использует свыше 200 различных сигналов. Google, Bing и Yahoo держат свои алгоритмы в секрете, что побуждает SEO-практиков к их раскрытию.

Персонализация результатов выдачи ещё более нивелирует возможности SEO. Контент, продублированный с других сайтов, стал наказываться, что вызвало к жизни большое количество сервисов проверки уникальности. С 2016 года сайты, имеющие мобильную версию, получили шанс подняться в рейтинге, к этому же приводит структурирование данных (наличие подзаголовков, маркированных и нумерованных списков).

Никакой веб-мастер не может быть уверен, что инвестировав в SEO и получив разовую адекватную отдачу, он получает гарантию продолжения обращений к его сайту и в дальнейшем. Так, Google, по одной из оценок, вносит в год около 500 изменений в алгоритмы ранжирования[1]. И однако, существуют простые методы оценки соответствия сайта некоторым правилам, гарантирующим удовлетворительную оценку сайта поисковыми системами.

Показатель «Академическая тошнота текста» биржи контента Advego[править]

Особой популярностью среди российских веб-мастеров пользуется показатель «Тошнота текста», разработанный командой биржи копирайтинга, контента и фриланса Advego не позднее 2013 года[2]. Согласно определению специалистов биржи, «Академическая тошнота определяется как отношение самых частотных и значимых слов по специальной формуле. Нормальное значение — в пределах 5−15 %[3]. По тошноте текста можно судить о натуральности текста и его SEO-оптимизации под поисковые запросы. Высокий показатель тошноты онлайн для поисковиков является плохим знаком». Показатель «тошнота текста» не имеет аналогов в зарубежной практике SEO, но широко применяется для оценки качества сайтов в России. За рубежом применяется показатель key density — плотность ключевых слов.

Название показателя предполагает, что встречая при просмотре контента одни и те же слова, пользователь будет испытывать неприятные, схожие с тошнотой, физиологические ощущения. Но сам замысел индекса «академическая тошнота» основан на более-менее приемлемых предположениях. Алгоритм сервиса при проверке текста «на тошноту» составляет два частотных словаря (ЧС) текста, ранжируя слова по частотности, отдельно ЧС стоп-слов, и ЧС всех слов текста за исключением стоп-слов.

К стоп-словам относятся части речи — частицы, артикли, предлоги, личные местоимения и союзы вроде «точно», «просто», «как», «когда», «и». Считается, что стоп-слова, или шумовые слова — это единицы текста, не учитываемые поисковиками при индексировании и оценке релевантности документа поисковому запросу. Чем больше стоп-слов использовано на странице, тем менее полезной сочтут её поисковые системы, хотя в отдельных случаях стоп-слова бывают в SEO значимыми. Единого универсального списка стоп-слов не существует, и новейшие рекомендации советуют не беспокоиться о стоп-словах и писать естественно, поскольку современные поисковые системы рассматривают гораздо больше факторов, чем отдельные слова.

Слова в списках ранжированы по частотности, от самого употребительного до слов, встречающихся всего 1 раз (это т. н. hapax legomena, или гапаксы), характеризующие лексическое богатство текста. Академическая тошнота вычисляется путем математической обработки ЧС текста без стоп-слов. Если каждое слово представить вектором в пространстве, с началом в начале координат, направленным по некоторой оси, и длиной, равной числу употреблений слова в тексте, то другому слову уже нет места на этой оси, его вектор располагается на своей оси. Таким образом, учитываемые для оценки тошноты текста слова представляются ортогональной системой векторов.

Алгоритм advego считает все слова текста уникальными по своим значениям, что требует ортогональности всех осей, а тем самым размещения всех слов-векторов в многомерном пространстве на перпендикулярных одна к другой осях. Для вычисления академической тошноты текста по advego необходимо знать длину вектора, равного сумме всех представляющих слова векторов, которая определяется по многомерному аналогу теоремы Пифагора как

где F1, F2 и т. д. — количество вхождений самого частотного слова, второго по частоте вхождений слова и т. п., вплоть до последнего слова Fn, где n — число разных слов, без учёта стоп-слов и гапаксов[4].

Сама же академическая тошнота АТ, с целью сделать её относительной величиной, не зависящей от длины текста, равна определённому выше значению длины вектора, деленному на общее число слов в тексте, без стоп-слов, и выражается в процентах.

где Nобщ — общее число слов в тексте, без стоп-слов (но с гапаксами!).

При всем своем несовершенстве, и полном отсутствии гарантии использования поисковыми системами схожих концепций, показатель АТ позволяет, при нахождении его в пределах 5−15 % (по рекомендациям advego), избежать «переспама», или переоптимизации сайта, под чем понимается слишком частое употребление одного слова или фразы в контенте страницы. Веб-мастера обычно предъявляют к показателю тошноты ещё более строгие требования, добиваясь значений в пределах 6−9 %. В качестве примера, вычисленная по алгоритму advego АТ рассказа Н.С. Лескова «Левша» составляет 5,5 %. Рекордно низкое значение АТ у рассказа М.А. Шолохова «Судьба человека» — 3,6 %.

Обычно, кроме АТ, с целью избежать переоптимизации, ограничивается частота самого частотного слова (учитываемая уже исходя из общего числа слов в тексте), рекомендуемое значение не выше 2,5−3 %. Если текст естественный, распределение частот слов в нём подчиняется лингвостатистическому закону Ципфа-Мандельброта, постулирующему, что распределение слов, ранжированных по их частоте в корпусе случайных текстов, аппроксимируется степенным распределением.

Неестественное насыщение текста ключевыми словами, при формальном соблюдении правила по ограничению частотности самого частотного слова, приводит к завышению частотности 2-го и последующих нескольких слов ЧС, что приводит к отклонению распределения частот слов от закона Ципфа-Мандельброта, и поднимает показатель АТ до неприемлемого значения, что побуждает веб-мастеров фокусироваться при подаче материала на 2−3 ключевых словах, не нагромождая большое их количество с целью привлечь внимание поисковых систем по как можно большему числу запросов, поскольку результат в этом случае, как показывает практика, будет противоположным.

Практический пример подсчета академической частоты

Поясним подсчет АТ на примере текста стихотворения П. И. Вейнберга «Титулярный советник»[5].

 Слово   Количество   Слово   Количество   Слово   Количество 
генеральский   любовь   пред 
 дочь   носиться   прогнать 
 советник   ночь   прочить 
 титулярный   объясниться   пьянствовать 
 винный   оно   робко 
 горе   пойти   туман 
 Всего слов  22 

Подсчитываем академическую тошноту текста, исходя из наличия 4 встречающихся по 2 раза слов (слова, встречающиеся 1 раз, в подсчете не участвуют) и учитываемого количества слов 22 (общее количество 34, минус 12 стоп-слов по данным advego):

Итого, академическая тошнота текста стихотворения равна 18,2 %.

Показатель «Классическая тошнота текста» биржи контента Advego[править]

В отличие от академической частоты, вычисляемой по всей совокупности частот слов, классическая тошнота КТ вычисляется по частоте самого частотного слова, и равна квадратному корню из этой частоты.

где Fm — частота самого частотного слова.

Тем самым, классическая тошнота не может быть задана без указания длины текста в словах, и допустимая классическая тошнота текста растет вместе с длиной текста.

Поскольку относительная частота самого частого слова задается отдельным показателем, порядка 2,5−3 %, классическая тошнота является избыточным показателем, по своей сути ничего не определяющим. Так, при длине текста в 300 слов и частоте слова в 3 %, оно будет встречаться в тексте 9 раз, откуда классическая тошнота равна . При увеличении длины текста в 16 раз, до 4800 слов, классическая тошнота увеличится в 4 раза и составляет 12. Отсюда ясна бесполезность задания для классической тошноты, как отдельного независимого показателя, каких-либо рамок.

Искусственное ограничение для данного текста в 4800 слов классической тошноты на уровне 6 приведет к необходимости замены около половины самых частых слов синонимами, что приведет к существенному отклонению распределения частот слов от закона Ципфа-Мандельброта, что наверняка явится признаком неестественности текста.

См.также[править]

Источники[править]

  1. https://searchengineland.com/13000-precision-evaluations-schmidts-testimony-reveals-how-google-tests-algorithm-changes-93740
  2. Биржа копирайтинга Адвего. Проверено 22 декабря 2022.
  3. https://advego.com/text/seo/
  4. Воробьев Н. Н. Теория рядов. — 4 изд., перераб. и доп.. — М.: Наука, Главная редакция физико-математической литературы, 1979. — С. 155. — 408 с.
  5. Петр Вейнберг Он был титулярный советник. Проверено 3 июня 2023.

Литература[править]

Навигация по темам
1
Фразеологизмы — крылатые словечки
Кинематограф и литератураБальзаковский возрастВражда между тупоконечниками и остроконечникамиГжегож БженчишчикевичДом высокой культуры бытаДырка от бубликаИх есть у меняКузинатраОтец русской интеллигенцииСкелет в шкафуСлон и МоськаТамбовский волкТарелочка с голубой каёмочкойХарактер нордический, выдержанный
Политика и БиблияАгрессивно-послушное большинствоБыть святее Папы РимскогоВашингтонский обкомВертикаль властиВстреча без галстуковВойна до последнего украинцаГарант конституцииГоворящая головаГрязные выборыДуховные скрепыЗагогулинаИмперия лжиКоллективный ЗападКрокодиловы слёзыКрылатая демократияКультура отменыЛагерный ивритЛиберальные бородёнкиЛихие 90-еМерзость запустенияМетод кнута и пряникаНаходится под контролемНигерия в снегуНовые русскиеОт АдамаОтмывание информацииОтправить на свалку историиПарад суверенитетовПартия властиПередел собственностиПовешение на фонаряхПолитическая проституткаПолитический трупПолитический тяжеловесПотёмкинские деревниПростой советский человекПятая властьРукопожатие крепкоеСветлое будущееСлив информацииСлуги народаСтакан водыСтрана 404Страны-изгоиСырьевой придаток ЗападаТефлоновый рейтингТлетворное влияние ЗападаТрубный гласФиговый листЦветная революцияЦивилизованная странаЧеловек, похожий на…Чёрный августЧувство глубокого удовлетворенияЭкспорт демократии
ДругоеАвгиевы конюшниАмнистия капиталовБарашек в бумажкеБегство капиталовБез душиБелая воронаБелая зарплатаВоды в рот набралВолевая победаВражеские голосаВсенародно избранныйГол как соколГолосование долларомДевушка с училищаДело в шляпеДогони меня, кирпичДымящийся пистолетЁлки-палкиЖенская логикаЗаложить за воротникЗатрапезная одеждаЗвезда в шокеЗолотая серединаБуква ЗюК шапочному разборуКабинетные стратегиКак встретишь Новый год, так его и проведёшьКак назлоКанарейка в шахтеКартина РепинаКвартира, машина, дачаКредитные акулыКрысиные бегаЛезть в бутылкуЛечь костьмиЛицензия на отстрел журналистовМедвежья болезньМёртвый почтовый ящикНа бисНа рыбьем мехуНапиться как свиньяНатягивать сову на глобусНевидимая рука рынкаНеприятный осадокОбезьяна с гранатойОговорка по ФрейдуОжидание Нового года лучше самого Нового годаОлух царя небесногоОтмывание лицензийОтправляться к праотцамОфисный планктонПахать на галерахПо адресуПо душамПоп-корольПопка ДуракПревращать чёрное в белоеПролетать как фанера над ПарижемПрятать голову в песокПчёлы против мёдаРаботать на дядюРазвесистая клюкваРозовые очкиС азовС тяжёлым сердцемСделать конфету из г**** Словесная интервенцияСправочник СтеляСтроить глазкиСтройка коммунизмаСухари сушитьТаблетки от жадностиТайны мирозданияТанковая карусельТошнота текстаФальшивые ёлочные игрушкиХолодная голова, горячее сердце и чистые рукиЧерепашьим шагом (ходом, как черепаха) • Чёрная зарплатаEx ante
Znanie.png Одним из источников этой статьи является статья в википроекте «Знание.Вики» («znanierussia.ru») под названием «Тошнота текста», находящаяся по адресам:

«https://baza.znanierussia.ru/mediawiki/index.php/Тошнота_текста»

«https://znanierussia.ru/articles/Тошнота_текста».

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.
Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?»