Стоп-слова: тонкости поискового шума

Как известно, текстовый контент является главным и, возможно, единственным критерием оценки релевантности веб-страницы. Именно на его качестве и оригинальности постоянно делают упор поисковые системы, его они заносят в свое информационное хранилище. Алгоритмы отбора текстов тоже не составляют особого секрета. Однако не все слова поисковыми машинами индексируются. Существуют, так называемые стоп-слова, которые, по мнению поисковых систем, не несут самостоятельной смысловой нагрузки. Такие слова, относящиеся к совершенно разным лексическим категориям, не подвергаются индексации. Делается это с целью ускорения процесса информационного поиска, экономии серверного пространства и производственных ресурсов машины.

При индексации они заменяются специальным маркером. Это имеет практическое значение при формировании семантического ядра сайта и определении круга продвигаемых ключевых фраз. Конечно же, качественный текст невозможен без предлогов, союзов, частиц, местоимений и междометий, которые предназначены для создания из отдельных значимых словосочетаний стройной речевой конструкции. Поэтому для читателей стоп-слова не менее ценны, чем те, которые индексируются машинами и на основании которых определяется релевантность страницы.

Общепринятый перечень стоп-слов

На сегодняшний день полного списка слов этой категории, также называемых поисковым шумом, не существует. В стандартный перечень стоп-слов принято включать:

Отдельно стоящие в тексте символы: . , / ? ! ; : ( ) и прочие;
Обособленные буквы и цифры;
Местоимения, причастия, союзы, предлоги, междометия, частицы, вводные слова, буквосочетания и буквенные сокращения;
Различные слова, часто присутствующие на веб-ресурсах: интернет, сайт, поиск, прайс, заказ и пр.;
Всевозможные крылатые фразеологизмы, состоящие из шумовых слов. Например, знаменитое гамлетовское восклицание: «быть или не быть».

Что же касается различных образцов «изящной словесности», больше известных как ненормативная лексика, то такие фразы не индексируются, сколь бы содержательными и осмысленными они ни были.

Стоп-слова: тонкости поискового шума

Политика конфиденциальности