Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум о хостинге в Украине _ Раскрутка сайтов _ Формат файла robots.txt

Автор: AcTEpi_X 23.9.2008, 18:11

Формат файла robots.txt - особый. Он состоит из записей, каждая из которых состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

Код
<Поле> ":" <значение>

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле User-agent

Строка User-agent содержит название робота. Робота Рамблера зовут: StackRambler поэтому если вы хотите создать инструкцию персольнально для нашего робота, то строка должна выглядеть следующим образом:
Код
User-agent: StackRambler

Вы можете создать инструкцию для всех роботов:
Код
User-agent: *


Поле Disallow:

Вторая часть записи состоит из строк Disallow. Эти строки - директивы (указания, команды) для данного робота. В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Вы можете запретить индексацию файла или каталога.

Следующая директива запрещает индексацию каталога /cgi-bin/:
Disallow: /cgi-bin/ Обратите внимание на / в конце названия директории. Это важно. Чтобы запрещать посещение именно каталога "/dir", инструкция должна иметь вид: "Disallow: /dir/". А строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например: "/dir.html", "/dir/index.html", "/directory.html".

Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.

Записаная следующим образом директива запрещает индексацию файла index.htm находящегося в корне:
Код
Disallow: /index.htm


К сожалению, инструкций Allow в файлах robots.txt не бывает. Поэтому даже если закрытых для индексирования документов очень много, Вам все равно придется перечислять именно их, а не немногочисленные "открытые" документы. Продумайте структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Пустые строки и комментарии


Пустые строки допускаются между группами инструкций, вводимыми User-agent.

Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка User-agent.

Любой текст от знака решетки "#" до конца строки считается комментарием и игнорируется.

Пример:

Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта.

Код
# Инструкции для всех роботов
User-agent: *
Disallow: /

# Инструкции для робота Рамблера
User-agent: StackRambler
Disallow:


Распространенные ошибки:

Перевернутый синтаксис:
Код
User-agent: /
Disallow: StackRambler


А должно быть так:

Код
User-agent: StackRambler
        Disallow: /

Несколько директив Disallow в одной строке:
Код
    Disallow: /css/ /cgi-bin/ /images/

Правильно так:

Код
Disallow: /css/
    Disallow: /cgi-bin/
    Disallow: /images/


источник: rambler.ru

Автор: ComfoPlace.com 23.9.2008, 21:11

Спорно. Некоторые поисковики и заклятые "сеошники" говорят о том что поисковик ""Сам решает что ему брать или не брать".

Автор: AcTEpi_X 23.9.2008, 21:26

все поисковики, или кто-то конкретно?

Автор: donikroman 23.9.2008, 21:52

Цитата(ComfoPlace.com @ 23.9.2008, 21:11) *
Спорно. Некоторые поисковики и заклятые "сеошники" говорят о том что поисковик ""Сам решает что ему брать или не брать".

не заклятый, но склоняюсь к тому что скорее да, чем нет wink.gif .

Цитата(AcTEpi_X @ 23.9.2008, 21:26) *
все поисковики, или кто-то конкретно?

все берут все что захотят, но некоторые не все показывают. МСН его вообще игнорирует (в народе называют внедорожником).
яндекс по моему мнению на запреты давно забил, чтоб линкофермы не прятали. то что директиву хост ни во что не ставит, это факт. склеить www и без оной может как по указанному, так и абсолютно противоположно. Пару раз встречались туманные объяснения от представителей ПС, что robots.txt несет в себе рекомендательную функцию. Т.е. запретив к индексации файл, это не гарантия что робот туда не пойдет. логи подтверждают, что бродят. Куда потом сливают то что видят, неведомо.
AcTEpi_X, чего гадать возьми часто обновляемый сайт, где боты постоянно, сделай страницу, прикрой ее в роботсе и по логам посмотри кто ходит, а кто нет.

Автор: AcTEpi_X 23.9.2008, 22:11

я так понял что смысла делать файл, ломать голову что закрывать, а что не закрывать для ботов нету?!

Автор: donikroman 23.9.2008, 22:17

Цитата(AcTEpi_X @ 23.9.2008, 22:11) *
я так понял что смысла делать файл, ломать голову что закрывать, а что не закрывать для ботов нету?!

Есть. ты же не от ботов закрываешь, а от индексации. Ты закрываешь то, что не должно показываться в выдаче поиска

Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)