Как поисковые боты индексят сайты.

Sunrise

Дата: Понедельник, 11.05.2009, 17:46 | Сообщение # 1

Admin :D

Группа: Пользователи

Сообщений: 99

Замечания: 0% [ 6 ]

Итак. В ответ на запрос пользователя бот выдает результат поиска.
Ищет он в собственном индексе. В индексе у него лежат сайты в том виде,
в каком бот их понимает. У каждого бота это понимание свое, но общие
черты прослеживаются.

Индекс образуется двумя путями.

Первый
- web-маз сам просит бот проиндексить его сайтец. Так поступают чаще
всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс,
Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер
с Яндексом соперничают в этом плане. На остальные боты можно не тратить
время. Это мое мнение.

Второй
путь - боты сами в «свободное от работы время» ползают по Инету и
вынюхивают изменения. С новыми сайтами они поступают по разному. Чаще
всего они принюхиваются к ним какое-то время, а потом, если, по мнению
бота, со страницей все в порядке (посетители иногда появляются, спама
нет и др.) - они его индексят. То есть заносят информацию о нем в свой
индекс (базу данных).
Самый тормозной в плане принюхивания - это
Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый -
Яндекс. Можно создать левый сайт и посмотреть, как скоро он
самопроизвольно появится в том или ином поисковике. В Яндексе… ну,
через месяц-два.

Кроме этого, боты следят за состоянием своего
индекса. То есть за его соответствием реальному положению дел в Инете.
Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно
реиндексируют. Правда, можно запретить это мета-тегами и цивилизованные
боты не будут этого делать.
Самый скоростной по реиндексированию -
Яндекс. Скорость реиндекса - несколько дней, а то и чаще, если ресурс
популярный. Самый тормозной - Апорт. Скорость реиндекса страниц с
посещаемостью 50-100 хостов в сутки - до полугода!
У меня был
сайт, который переехал. Так Апорт по запросу старый адрес еще несколько
месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего не
было! И соответственно, посещаемость - 0. А Апорту все равно!

Дальше.
Результат
поиска по запросу пользователя чаще всего выдается по релевантности.
Чем выше релевантность, тем выше позиция страницы в результате работы
поисковика. Страница с наиболее высокой (по мнению бота) релевантностью
отображается первой. Релевантность - это степень соответствия содержимого индекса бота запросу пользователя.
Например,
пользователь вводит «анекдоты». Бот выдает страницы проиндексированных
сайтов, где встречается это слово. Причем не просто встречается, а
встречается в тех местах, которые бот индексит.
Но об этом позже.
Яндекс,
например, чаще всего выдает только одну страницу с сайта и ссылки на
то, что есть еще страницы с того же сервера. Замечали, наверное. Другие
боты могут по несколько страниц с одного сервака на один запрос
выдавать. Это не очень образованные боты, но их тоже юзают.

Продолжим
с примером про «анекдоты». Бот выдает результат поиска по
релевантности. То есть, если на странице имеется 100 слов и 4 из них -
«анекдоты» (в именительном падеже, множественном числе), то
релевантность страницы по запросу «анекдоты» 0.04. Четыре процента.
Соответственно, если слов будет 10, и 4 из них - «анекдоты», то
релевантность будет 40 %. То есть в 10 раз выше.
Это грубоватый
пример, так как слова в заголовке (то что между
<title></title>) и в тексте страницы имеют для бота разный
вес, равно как слова в падеже и числе, указанном в запросе и имеющемся
на странице. Но для понимания понятия «релевантность» вполне сойдет.

Поясню про падежи и числа.
Если
запрос «анекдоТЫ», а на странице встречаются только слова «анектоТ,
анекдоТОВ» и т.д. то релевантность страницы по этому запросу будет
ниже, чем тех страниц, на которых прямо написано слово «анекдоТЫ». Но в
любом случае страница все равно найдется по запросу «анекдоТЫ» (но в с
конце списка ответа поисковика).

Из сказанного следует, что страница должна содержать поменьше слов, и слова должны быть, в основном, ключевые.

Куда же девать инфу, которая в 10-20 слов никак не поместится?
Ответ - страницы с инфой и страницы для ботов - это «две большие разницы».

Страницы с инфой- это те страницы, на которые попадаешь по ссылке со стартовой страницы. А стартовая страница
(другие названия - индексная, заходная, doorway и др.) - это страница
которая как раз и содержит 10-20 слов (включая заголовок и мета-теги).
То есть эта страница, созданная специально для бота. И больше ни для
кого.

Обычно, на стартовой странице размещают лого, иногда еще
несколько слов - чтобы пользователь понял, куда попал, и кнопочку
«Вход». Иногда вместо кнопочки «вход» - ссылки на разные разделы сайта.
То есть несколько входов.
Если без текста на индексной странице, ну, никак не обойтись, можно запихнуть его в картинки. Так Мелкософт (www.microsoft.com) поступает, например. Правда, им-то чего о релевантности заботиться?

Важно,
чтобы бот по запросу нашел хоть какую-то страницу на сайте. Важно
также, чтобы навигация на ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ
срок в любое место сайта.
По крайней мере, ссылка на главную страницу, по моему мнению, должна стоять на каждой странице.
Если бот начнет индексить, он надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить ему эту задачу. Причем, чем больше ссылок на ту или иную страницу (с разных страниц, ясен тетя), тем выше ее «ценность» с точки зрения бота.

Итак.
Стартовая страница делается для бота. На ней нет инфы, только ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов.
Страницы с инфой должны содержать ссылки друг на друга, нормальный информативный заголовок и приемлемые мета-теги.
Все. Их цель - дать инфу и не препятствовать боту запихнуть их в свой
индекс. Они не должны первыми появляться по запросу пользователя. Так
как в данном случае это как раз те два зайца, за которыми никак не
угнаться, да и не надо.

Дальше.
Понятное дело, что есть не
одно, а несколько ключевых слов, по которым web-маз хочет, чтобы
искался сайт. Чтобы этого добиться, по хорошему, нужно делать столько
стартовых страниц, сколько желаемых web-мазом ключевых слов. Внешне эти
страницы ничем не должны отличаться. Ну, может, title`ом. Отличаться
должна служебная инфа, о которой речь пойдет ниже.

Например, у
меня есть сайт для фирмешки, продающей стартеры для иномарок. Я сделала
с десяток-два индексных страниц для наиболее популярных моделей
иномарок. Внешне страницы отличаются только тем, что на одной в
заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры
для Вольво». Все. Конечно, отличаются мета-теги, alt`ы (подписи к
картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила в
ботах отдельно.

Итак.
Что же индексит бот?
У каждого бота свой характер, но в целом примерно так.
Во-первых
title. Это самая важная часть. Слова в title`е имеют самый большой вес.
Большой вес имеют слова в alt`ах (подписях к картинкам), слова между
<h1> </h1>, <h2> </h2> и т.д. в порядке
убывания значимости, слова между <b> </b>.
Кроме того,
слова, расположенные ближе (выше) к title`у, имеют больший вес, чем
слова расположенные ниже. То есть, чем выше слово, тем выше его вес при
определении релевантности.
Полнотекстовые боты (то есть практически
все современные) индексят еще и сам текст. В основном, на предмет
наличия в тексте слов, указанных в заголовке и метах. Но если текста
нет или очень мало - соответственно.

Итого, как заставить бот выдавать твою страницу первой по запросу, например, «варез»?

Пишем:

Code

<html>
<title>Лучший варез</title>
<title> Софт Варез Нелегальный софт</title>

То есть пишем второй title.
После
второго title`a нужно поставить знак неразрывного пробела -
или . Так как Яндекс, например, выдаст оба заголовка как один
и без пробела последнее слово первого заголовка сольется с первым
словом второго заголовка.
Разумеется, ключевые слова (2-6) можно выдумать и другие.

На той же странице пишем дальше:

Code

В
keywords`ах должно быть не более 10-ти слов, необходимо использовать
варианты (не более трех) наиболее частых падежей и чисел: (например:
программы, программ, программа), чередуя их с другими словами
(например: программы, софт, программ, варез, программа).

В
description - несколько слов (5-8 слов, не более 170 символов), емко
характеризующих сайт. В Апорте и Рамблере это описание появится рядом с
результатом поиска по запросу. В настоящее время при индексировании
содержимое description на релевантность не влияет. По крайней мере, в
рассмативаемых поисковиках.

Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.

Name и http-equiv должны полностью совпадать. Одни боты понимают name, другие - http-equiv.

Дальше на той же странице:

Code

Дальше:

Code

Дальше для Рамблера (только):

Code

То
есть в тегах комментария в заголовке первого уровня пишем ключевые
слова. Яндекс то, что в тегах комментария не индексит, а Рамблер ест
как миленький.

Потом, все картинки, что ни есть, должны содержать alt`ы с ключевыми словами.

Можно
даже в неприметном месте страницы однопиксельных прозрачных гифов
запихать (не очень много - 3-4) и alt`ы к ним нужные прикрутить. Это
считается спамом поисковика (как и два title`а, впрочем), но по опыту -
они (боты) этого в упор не видят.

Вообщем, «легальные» способы кончились дальше идут «нелегальные».

Можно сделать для IE:

Code

<div style="visibility: hidden">
<h1>Программы, варез, софт, программа</h1>
</div>

Для NN:

Code

<layer visibility="hide"> <h1>Программы, варез, софт, программа</h1> </layer>

Это
не очень удобно. Нужно ставить скриптину, определяющую тип браузера. Но
боты глотают эту наживку и в «черный» список не запихивают.

Проще:

Code

<font color="#цвет фона"><h1>Варез программа</h1></font>

Но это боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют - они сейчас умные пошли.

Еще
можно вот что сделать. Где-нибудь неприметненько запихиваем прозрачные
gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит и по ссылкам
пойдет, особенно, если сами ссылки по дизайну на страницу никак не
поместить.

Примерно так:

Code

<a
href="первая ссылка"><img src="images/gif_1.gif" width="1"
height="1" border="0" alt="Варез, софт, нелегальный софт"></a>
<a href="вторая ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="Софт, варез"></a>
<a href="третья ссылка"><img src="images/gif_1.gif" width="1" height="1" border="0" alt="варез, софт"></a>
и т.д.

Ну,
и нужен специально обученный человек, который будет следить за
эволюцией ботов, изменениями позиции страницы в поисковиках и
предпринимать сответствующие действия. Не каждый день, но раз в
недельку-две тестирование в поисковиках своим страницам нужно
устраивать.

И вот еще что! Если релевантность _слишком_ высока,
Яндекс обижается и не выдает страницу по запросу. За остальными не
замечала. Другие страницы того же сайта с меньшей релевантностью может
выдавать («серый» список). Так что, если на странице только слова
«варез варез варез» - это не выход. Релевантность должна быть не более
30 %. И одинаковые слова подряд лучше не повторять.

А Батва
меня навел на мысль, что можно делать по 2 страницы на одно ключевое
слово. На одной странице релевантность по ключевому слову 10 % (для
подозрительного Яндекса), на другой - порядка 30 % (для остальных).

И вот когда все это извращение готово - 10-15 стартовых качественно написанных страниц - идешь на http://www.design.ru/free/addurl/
и каждую страницу индексишь одной пимпой в нескольких наиболее
популярных поисковиках. При этом видишь ответы серверов, и, если не
прошло - идешь индексить вручную.
Об остальных поисковиках спокойно забываешь, толку от них… Работы больше.
Описание к каждой странице - разное, ясен тетя. Емкое, краткое состоящее из ключевых слов.

Можно, и вручную добавлять сайт в каждый поисковик, но это геморройно и не сильно выгодней. Впрочем, это мое мнение.

И последнее.
В корень (только в корень) помещаешь файт robots.txt (именно так и никак иначе) со следующим содержимым:

Code

User-agent: *   # Первая строка.
   # Комментарии, понятное дело, убрать
   # Строка говорит, что любой бот может индексить ресурс
   # Между первой и последующими -
   # не должно быть переводов строк
Disallow: /cgi-bin/  #Не индексировать то, что в каталоге cgi-bin
Disallow: /images/  #Не индексировать то, что в каталоге images
Disallow: /scripts/   #Не индексировать то, что в каталоге scripts

# И далее по смыслу. В конце каждого имени каталога - слеш.
# Нече там ботам ползать. Нагрузку на сервак повышать. <img src="http://s22.ucoz.net/sm/1/smile.gif" border="0" align="absmiddle" alt="smile">

Вот, собственно. Хотя, можно еще много фантазировать на тему.