Как работает поисковая система?

  • 10 октября, 14:48
  • 3659
  • 0

Мы используем поисковые системы постоянно. Но как они работают? Цель данной статьи - попытаться объяснить основные понятия поисковой системы с помощью простых и понятных примеров.

Поисковая система состоит из трех важных операций: сканирование, индексирование и ранжирование.

Как работает поисковая система?

Веб-сканирование

Сканер или веб-паук - это автоматизированное программное обеспечение, которое систематически (на основе логических или вероятностных правил) просматривает Интернет и собирает информацию для использования в процессе индексации в будущем. Реальной аналогией этого может быть то, что вы посещаете каждую автобусную остановку (веб-страницу) в городе, в котором вы живете (веб-сайт), и фотографируете расписание автобусов на каждой остановке (собираете контент для индекса), а затем посещаете другой город и делать то же самое.

У поисковой системы, такой как Google, есть много веб-сканеров (в их случае известных как Googlebots), поскольку в Интернете существуют миллиарды и миллиарды страниц. Сканирование в Интернете - это бесконечный процесс, так как Интернет постоянно растет. Современные поисковые системы также сканируют другие типы документов и мультимедиа, а не только веб-страницы.

Поездка на каждую остановку автобуса в каждом крупном городе была бы трудной  задачей, и поэтому сканеры работают параллельно (пока вы фотографируете расписание автобусов в Торонто, ваш друг делает то же самое в Монреале в одно и то же время).

Процесс поиска в Интернете обычно начинается со списка URL-адресов веб-страниц, которые обычно генерируются из предыдущего процесса сканирования. Сканер заходит на каждую из этих веб-страниц и обнаруживает ссылки на другие веб-страницы. Эти недавно обнаруженные ссылки добавляются в список страниц для сканирования.

Сканер также сохраняет содержимое веб-страницы для последующей индексации. Процесс веб-сканирования заканчивается, когда больше нет веб-страниц для сканирования или когда выполняется алгоритмическое условие. 

Индексирование

Когда веб-сканер завершил процесс сбора контента, должна быть создана или обновлена индексная таблица. Индексная таблица используется из-за преимуществ в скорости, которые она предоставляет при возврате результатов поисковой системы пользователю. Процесс создания или обновления индексной таблицы обычно является длительным процессом; однако это приемлемо, поскольку процесс скрыт от пользователя.

Основные этапы построения индекса:

1. Сбор документов, возвращенных сканером. Предположим, что веб-сканер вернул только следующие документы:

Как работает поисковая система?

2. Удаление стоп-слова и знаков препинания из документов. Стоп-слова - это очень распространенные слова в языке, такие как «a», «the» и «or». Эти слова удалены для повышения эффективности поисковой системы при возврате результатов. Их также называют «мешочные слова».

Как работает поисковая система?

3. Дополнительная лингвистическая обработка завершается преобразованием каждого слова в его корневое слово. Например, «друзья» для «друга» или «дети» для «детей». Этот процесс называется «остановка».

4. Создается индекс терминов, где он содержит документ и частоту, с которой встречается слово. Ниже приведен пример индекса на основе содержания выше:

Как работает поисковая система?

Этот пример - очень простой метод индексации. Сегодня поисковые системы используют более сложные методы. Частота использования термина в документе является важным свойством; однако другие свойства (такие как расположение термина в документе или географическое расположение сервера, на котором размещается документ, возраст содержимого) также могут быть добавлены в таблицу индексов.

Ранжирование

Процесс ранжирования документов происходит, когда пользователь вводит слова (запрос) в поисковую систему и нажимает «ОК». Предположим, что пользователь выполнил следующий запрос «Я люблю волнистие чипсы». Очевидно, что поисковая система возвращает документы D1 и D3, но какой документ более актуален для пользователя? Как работает поисковая система?

Сегодня поисковые системы ранжируют документы, используя сложную технику, основанную на многих факторах (секретный соус) - то, что технические специалисты и маркетологи называют поисковой оптимизацией (SEO).

Цель профессионала SEO - использовать эти факторы, если они обнаружатся, для повышения рейтинга веб-страницы. К сожалению, многие компании, занимающиеся поисковыми системами, постоянно совершенствуют и совершенствуют свои алгоритмы подкачки. Это, в свою очередь, делает устаревшими знания, полученные в SEO индустрии. Да и точное определение фактов ранжирования никто не знает.


0 комментариев
Сортировка:
Добавить комментарий