Яndex индексирует страницы по их истинным адресам. Это значит, что,
если на странице стоит redirect, робот воспримет его как ссылку на новый
адрес и внесет ее в очередь на индексирование (если она удовлетворяет
описанным выше правилам). То же самое произойдет, если в одном из фреймов
будет стоять ссылка на другой сервер. В частности, если эта ссылка
находится вне доменов, разрешенных по умолчанию, страница НЕ будет
проиндексирована. Робот Яndex хранит дату последнего обхода каждой
страницы, дату ее изменения (присланную Web-сервером) и дату внесения
последних изменений в базу поиска (дату индексации). Он оптимизирует обход
Сети таким образом, чтобы чаще посещать наиболее изменяемые
сервера. Яndex индексирует документ полностью: текст, заголовок,
подписи к картинкам, описание (description), ключевые слова и некоторую
другую информацию.
Как запретить индексацию определенных страниц? Разрешения и
запрещения на индексацию берутся всеми поисковыми системами из файла
robots.txt. Запрет на индексацию ряда страниц может появиться,
например, из соображений секретности или из желания не индексировать
одинаковые документы в разных кодировках. Чем меньше Ваш сервер, тем
быстрее робот его обойдет. Поэтому запретите в файле robots.txt все
документы, которые не имеет смысла индексировать (например, файлы
статистики или списки файлов в директориях). Обратите особое внимание на
CGI или ISAPI скрипты - наш робот индексирует их наравне с другими
документами. В простейшем виде (разрешено все, кроме директории
скриптов) файл robots.txt выглядит следующим
образом:
User-Agent: * Disallow:
/cgi-bin/
Детальное описание спецификации файла можно
прочитать на странице: "Стандарт исключений для роботов".
Как выяснить, что Yandex проиндексировал на моем
сервере? Если в Расширенном поиске, в
разделе "Сайт/вершина", в поле "Искать только на данном сайте" Вы
укажете свой URL и нажмете кнопку "Найти", то в результате поиска Вы
увидите все страницы Вашего сервера, проиндексированные Яndex'ом.
Источник: http://www.yandex.ru/ |