Основные принципы работы поисковых систем

By | 09/11/2011


Принципы работы поисковых системДля того, чтобы успешно раскрутить свой сайт, продвинуть его в поисковых системах, необходимо иметь хотя бы общее представление о работе поисковых систем.

В Интернете одновременно существует много миллиардов веб-страниц (документов) и каждый день это число растет. Понятно, что для того, чтобы в таком огромном количестве найти именно то, что Вам надо, невероятно сложная задача. Более того, без специальных сервисов – поисковых систем, или машин – эта задача является практически неразрешимой.

Именно поисковые системы берут на себя труд узнать, что же пользователь хотел спросить в своем подчас корявом запросе, найти наиболее подходящие по смыслу запроса документы и предложить их читателю.

Поисковых систем в мире насчитывается достаточно много, однако среди них выделяется 3 гиганта — Google, Yahoo и MSN Search, каждый из которых имеет свою базу данных и свои собственные алгоритмы поиска.

Все остальные поисковики в той или иной мере используют их данные и их наработки в своей деятельности. Среди указанных поисковиков первое место занимает Google. Нам он интересен еще и потому, что занимает видное место в поиске среди русскоязычных сайтов (Рунете). Кроме того, Google регулярно рассказывает о своих подходах к индексации сайтов и вебмастера имеют возможность строить свою работу, основываясь на данных из первоисточника.

Вторая поисковая система, на которую мы должны обращать особое внимание, это -Яндекс, которые занимает лидирующее место в Рунете и на данных которого основана деятельность подавляющего числа различных сервисов (в том числе и для заработка).

Здесь картина не такая ясная, как в случае  с Google, почти обо всем приходится только догадываться, поскольку Яндекс окружил свою деятельность плотной завесой. Но это не вина отцов-основателей Яндекса, таков российской менталитет – все держать в секрете. Поэтому, где живем, то и имеем. Надо просто в своей деятельности учитывать эту политику  Яндекса как данность.

Структура поисковых систем

Итак, любая поисковая система, как бы она ни называлась, имеет общие с другими поисковиками черты. У них у всех есть (в той или иной степень развитости) следующие системы:

— программы, которые скачивают к себе в базу вебстраницы. Их часто называют Spider (паук);

— программы, которые с этих обнаруженных страниц переходят по ссылкам на другие Интернет-ресурсы (Crawler или «путешествующий» паук);

— программы, которые анализируют скачанные страницы (Indexer или индексатор);

— программа, которая выдает по запросу нужные результаты (Search engine results engine — система выдачи результатов).

Есть еще много других роботов, но они нам сейчас не интересны и мы их рассматривать не будем.

Общий принцип работы поисковых систем

Если говорить коротко и упрощенно, то работают все поисковые системы так: Crawler по указанию Spider скачивает новые неизвестные страницы с сайта, они анализируются, определяются ссылки с этих страниц, по которым Spider опять уходит на поиски нового контента, обнаруживает их, дает команду Crawler на скачивание и далее на анализ и так до бесконечности. В найденных страницах анализируется содержание и они встраиваются в общий рейтинг (индекс поисковой системы).

Надо знать, что поисковые боты (роботы) запрашивают серверы, на которых расположены сайты, есть ли на «подведомственных» сайтах что-нибудь новое. Если сервер, отвечает утвердительно, то боты начинают искать и скачивать новые страницы. Или измененные страницы, если Вы вносили изменения. Поэтому вносить изменения в уже опубликованные статьи не менее важно, чем писать новые: в глазах робота – это тоже новый контент. Отсюда, кстати, вытекает то, что надежность сервера, на котором Вы размещаете свой сайт, имеет первостепенное значение.

В своей книге о выборе хостинга проблеме бесперебойной работы серверов (up-time) хостинг-провайдера я обратил особое внимание. Если Ваш сайт достаточно часто «лежит», значит, пора менять хостинг. Можете почитать эту книгу и что-нибудь подобрать себе. Скачать ее можно здесь — http://bit.ly/v3U4mG.

Как, когда и какой паук придет к Вам на сайт – это забота самой поисковой системы. Мы можем повлиять только косвенно, путем частой публикации. Но какой бы ни была высокой частота публикаций на Вашем сайте, Вы никогда не сможете сравниться с информационными ресурсами (типа ИТАР-ТАСС) или социальными сетями (Facebook и пр.), где поисковики буквально живут.

Зато можно твердо утверждать, что чем реже Вы проводить публикации нового контента на своем сайте, тем реже к Вам будет приходить Spider.

Мы можем и должны учитывать этот момент в своей деятельности для решения тех или вопросов. Ясно, что ссылка  с социальной сети (особенно принадлежащей самому поисковику – Google+ или Я.ру) будет роботом поисковой системы обнаружена быстрее всего, но она не сможет передать такой же вес, как ссылка с самого авторитетного ресурса по Вашей теме.

Поэтому, если Вам надо, чтобы Ваш сайт (или его страницу) как можно быстрее нашли поисковые системы, то Вам надо получить ссылки с информационных ресурсов, социальных сетей и т.п. А если Вы озабочены «пузомерками» (PR и тИЦ), то Вам нужны совсем другие ссылки. Для того, чтобы это Вам стало яснее и Вы не допускали стратегических (именно так!) ошибок, нам необходимо узнать, каким образом у поисковых систем выдача и вообще ранжирование страниц.

Вывод: поисковые системы необычайно сложная и закрытая структура, однако вебмастеру надо знать основные принципы ее работы

P.S. Знание этих основ поможет Вам раскрутить любой сайт, например, сайт, тема которого — ферросилиций. И даже если Вы в самом ферросилиции не очень смыслите. Зато Вы будете хорошо смыслить в SEO.

Похожие записи по этой теме:

Оставить комментарий

Your email address will not be published. Required fields are marked *