Формат файла robots.txt

karman.com.ua - Хостинг в Украине
форум о хостинге в Украине

Здравствуйте, гость ( Вход | Регистрация )

 
Ответить в данную темуНачать новую тему
> Формат файла robots.txt
AcTEpi_X
сообщение 23.9.2008, 18:11. Re: Формат файла robots.txt
Сообщение #1


Любимый профессор хостинга
*****

Группа: Любимый хостинг-ROOT
Сообщений: 1 144
Регистрация: 11.2.2008
Пользователь №: 887



Формат файла robots.txt - особый. Он состоит из записей, каждая из которых состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow:
Код
<Поле> ":" <значение>

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле User-agent

Строка User-agent содержит название робота. Робота Рамблера зовут: StackRambler поэтому если вы хотите создать инструкцию персольнально для нашего робота, то строка должна выглядеть следующим образом:
Код
User-agent: StackRambler

Вы можете создать инструкцию для всех роботов:
Код
User-agent: *


Поле Disallow:

Вторая часть записи состоит из строк Disallow. Эти строки - директивы (указания, команды) для данного робота. В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Вы можете запретить индексацию файла или каталога.

Следующая директива запрещает индексацию каталога /cgi-bin/:
Disallow: /cgi-bin/ Обратите внимание на / в конце названия директории. Это важно. Чтобы запрещать посещение именно каталога "/dir", инструкция должна иметь вид: "Disallow: /dir/". А строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например: "/dir.html", "/dir/index.html", "/directory.html".

Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.

Записаная следующим образом директива запрещает индексацию файла index.htm находящегося в корне:
Код
Disallow: /index.htm


К сожалению, инструкций Allow в файлах robots.txt не бывает. Поэтому даже если закрытых для индексирования документов очень много, Вам все равно придется перечислять именно их, а не немногочисленные "открытые" документы. Продумайте структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Пустые строки и комментарии


Пустые строки допускаются между группами инструкций, вводимыми User-agent.

Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка User-agent.

Любой текст от знака решетки "#" до конца строки считается комментарием и игнорируется.

Пример:

Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта.

Код
# Инструкции для всех роботов
User-agent: *
Disallow: /

# Инструкции для робота Рамблера
User-agent: StackRambler
Disallow:


Распространенные ошибки:

Перевернутый синтаксис:
Код
User-agent: /
Disallow: StackRambler


А должно быть так:

Код
User-agent: StackRambler
        Disallow: /

Несколько директив Disallow в одной строке:
Код
    Disallow: /css/ /cgi-bin/ /images/

Правильно так:

Код
Disallow: /css/
    Disallow: /cgi-bin/
    Disallow: /images/


источник: rambler.ru
Перейти в начало страницы
 
+Цитировать сообщение
ComfoPlace.com
сообщение 23.9.2008, 21:11. Re: Формат файла robots.txt
Сообщение #2


Любимый продвинутый хостинг-профессионал
***

Группа: Любимый Хостер
Сообщений: 303
Регистрация: 22.4.2008
Из: ComfoPlace
Пользователь №: 979



Спорно. Некоторые поисковики и заклятые "сеошники" говорят о том что поисковик ""Сам решает что ему брать или не брать".
Перейти в начало страницы
 
+Цитировать сообщение
AcTEpi_X
сообщение 23.9.2008, 21:26. Re: Формат файла robots.txt
Сообщение #3


Любимый профессор хостинга
*****

Группа: Любимый хостинг-ROOT
Сообщений: 1 144
Регистрация: 11.2.2008
Пользователь №: 887



все поисковики, или кто-то конкретно?
Перейти в начало страницы
 
+Цитировать сообщение
donikroman
сообщение 23.9.2008, 21:52. Re: Формат файла robots.txt
Сообщение #4


Любимый профессионал активист хостинга
****

Группа: Любимый хостинг-Профессионал
Сообщений: 604
Регистрация: 6.8.2008
Из: Харьков, Донецк, Черкассы
Пользователь №: 1 149



Цитата(ComfoPlace.com @ 23.9.2008, 21:11) *
Спорно. Некоторые поисковики и заклятые "сеошники" говорят о том что поисковик ""Сам решает что ему брать или не брать".

не заклятый, но склоняюсь к тому что скорее да, чем нет (IMG:style_emoticons/default/wink.gif) .

Цитата(AcTEpi_X @ 23.9.2008, 21:26) *
все поисковики, или кто-то конкретно?

все берут все что захотят, но некоторые не все показывают. МСН его вообще игнорирует (в народе называют внедорожником).
яндекс по моему мнению на запреты давно забил, чтоб линкофермы не прятали. то что директиву хост ни во что не ставит, это факт. склеить www и без оной может как по указанному, так и абсолютно противоположно. Пару раз встречались туманные объяснения от представителей ПС, что robots.txt несет в себе рекомендательную функцию. Т.е. запретив к индексации файл, это не гарантия что робот туда не пойдет. логи подтверждают, что бродят. Куда потом сливают то что видят, неведомо.
AcTEpi_X, чего гадать возьми часто обновляемый сайт, где боты постоянно, сделай страницу, прикрой ее в роботсе и по логам посмотри кто ходит, а кто нет.
Перейти в начало страницы
 
+Цитировать сообщение
AcTEpi_X
сообщение 23.9.2008, 22:11. Re: Формат файла robots.txt
Сообщение #5


Любимый профессор хостинга
*****

Группа: Любимый хостинг-ROOT
Сообщений: 1 144
Регистрация: 11.2.2008
Пользователь №: 887



я так понял что смысла делать файл, ломать голову что закрывать, а что не закрывать для ботов нету?!
Перейти в начало страницы
 
+Цитировать сообщение
donikroman
сообщение 23.9.2008, 22:17. Re: Формат файла robots.txt
Сообщение #6


Любимый профессионал активист хостинга
****

Группа: Любимый хостинг-Профессионал
Сообщений: 604
Регистрация: 6.8.2008
Из: Харьков, Донецк, Черкассы
Пользователь №: 1 149



Цитата(AcTEpi_X @ 23.9.2008, 22:11) *
я так понял что смысла делать файл, ломать голову что закрывать, а что не закрывать для ботов нету?!

Есть. ты же не от ботов закрываешь, а от индексации. Ты закрываешь то, что не должно показываться в выдаче поиска
Перейти в начало страницы
 
+Цитировать сообщение
Ответить в данную темуНачать новую тему
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0
Есть вопросы о хостинге и о сайтах?

и получи ответ от профессионалов, которые обожают помогать людям :).
Похожие темы:
Последнее сообщение Отравка Форм на мыло.

Последнее сообщение Новая реализация Формы поиска от Webalta

Последнее сообщение ИнФормация о SEO – оптимизаци под поисковые системы.
Design by: Free IPB Skins & Web Proxy & © Karman.com.ua Rambler's Top100