Стоп-слова: тонкости поискового шумаКак известно, текстовый контент является главным и, возможно, единственным критерием оценки релевантности веб-страницы. Именно на его качестве и оригинальности постоянно делают упор поисковые системы, его они заносят в свое информационное хранилище. Алгоритмы отбора текстов тоже не составляют особого секрета. Однако не все слова поисковыми машинами индексируются. Существуют, так называемые стоп-слова, которые, по мнению поисковых систем, не несут самостоятельной смысловой нагрузки. Такие слова, относящиеся к совершенно разным лексическим категориям, не подвергаются индексации. Делается это с целью ускорения процесса информационного поиска, экономии серверного пространства и производственных ресурсов машины. При индексации они заменяются специальным маркером. Это имеет практическое значение при формировании семантического ядра сайта и определении круга продвигаемых ключевых фраз. Конечно же, качественный текст невозможен без предлогов, союзов, частиц, местоимений и междометий, которые предназначены для создания из отдельных значимых словосочетаний стройной речевой конструкции. Поэтому для читателей стоп-слова не менее ценны, чем те, которые индексируются машинами и на основании которых определяется релевантность страницы. Общепринятый перечень стоп-слов На сегодняшний день полного списка слов этой категории, также называемых поисковым шумом, не существует. В стандартный перечень стоп-слов принято включать:
Что же касается различных образцов «изящной словесности», больше известных как ненормативная лексика, то такие фразы не индексируются, сколь бы содержательными и осмысленными они ни были. |
Лицо, указывающее свои персональные данные на сайте m001.ru (включая любые поддомены сайта), (далее по тексту «Клиент») обязуется принять настоящее Соглашение и дает согласие на обработку его персональных данных, на нижеприведённых условиях: