ИНФОРМАЦИОННЫЙ ИНТЕРНЕТ - ПОРТАЛ
белые каталоги эффективная регистрация сайта seo-программы список каталогов
   
Статьи  
   
Интернет и деньги
Раскрутка сайта
Веб-мастеру
Разное
   
Книги  
   
Web-технологии
Интернет-бизнес
Философия-бизнеса
Сетевой-маркетинг
Раскрутка сайта
   
Бизнес  
   
"Бизнес с нуля или секрет больших денег"
Подробное руководство для тех, кто хочет открыть своё дело
полное руководство

"Примеры наиболее популярных бизнес-планов"
Типовые решения для Вашего бизнеса
бизнес-планы

   
Учебники  
   
HTML
CSS
JavaScript
   
Сервисы  
   
База каталогов
Анализ сайта
Добавить статью
Обратная связь
Обмен ссылками
Гостевая книга
Поиск по сайту
   
Партнёры  
   
Каталог партнерских программ - Заработок для веб мастеров
ВЕБ - МАСТЕРУ версия для печати
Составление файла robots.txt
Источник: www.articlesworld.ru
Рекомендации Rambler'a

Робот ищет robots.txt только в корневом каталоге Вашего сервера. Под именем сервера здесь понимаются доменное имя и, если он есть, порт.

Размещать на сайте несколько файлов robots.txt, размещать robots.txt в подкаталогах бессмысленно: "лишние" файлы просто не будут учтены роботом. Таким образом, вся информация о запретах на индексирование подкаталогов сайта должна быть собрана в едином файле robots.txt в "корне" сайта.

Имя robots.txt должно быть набрано строчными (маленькими) буквами, поскольку имена интернет-ресурсов (URI) чувствительны к регистру.

Ниже приведены примеры правильных и неправильных размещений robots.txt.

Правильные:
http://www.w3.org/robots.txt
http://w3.org/robots.txt
http://www.w3.org:80/robots.txt
(В данном случае все эти три ссылки ведут на один и тот же файл.)

Неправильные:
http://www.yoursite.ru/publick/robots.txt
http://www.yoursite.ru/~you/robots.txt
http://www.yoursite.ru/Robots.txt
http://www.yoursite.ru/ROBOTS.TXT

Формат файла robots.txt

Пример

Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта.

# Инструкции для всех роботов
User-agent: *
Disallow: /

# Инструкции для робота Рамблера
User-agent: StackRambler
Disallow:

Группы инструкций для отдельных роботов: User-agent

Любой файл robots.txt состоит из групп инструкций. Каждая из них начинается со строки User-agent, указывающей, к каким роботам относятся следующие за ней инструкции Disallow.

Для каждого робота пишется своя группа инструкций. Это означает, что робот может быть упомянут только в одной строке User-agent, и в каждой строке User-agent может быть упомянут только один робот.

Исключение составляет строка User-agent: *. Она означает, что следующие за ней Disallow относятся ко всем роботам, кроме тех, для которых есть свои строки User-agent.

Инструкции: Disallow

В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.

Строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например: "/dir.html", "/dir/index.html", "/directory.html".

Чтобы запрещать посещение именно каталога "/dir", инструкция должна иметь вид: " Disallow: /dir/".

Для того, чтобы инструкция что-либо запрещала, указанный в ней путь должен начинаться с "/". Соответственно, инструкция "Disallow:" не запрещает ничего,то есть все разрешает.

Внимание: точно так же и инструкции "Disallow: *", " Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.

К сожалению, инструкций Allow в файлах robots.txt не бывает. Поэтому даже если закрытых для индексирования документов очень много, Вам все равно придется перечислять именно их, а не немногочисленные "открытые" документы. Продумайте структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте.

Пустые строки и комментарии

Пустые строки допускаются между группами инструкций, вводимыми User-agent.

Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка User-agent.

Любой текст от знака решетки "#" до конца строки считается комментарием и игнорируется.

Использование META-тегов "Robots"

В отличие от файлов robots.txt, описывающих индексацию сайта в целом, тег <meta name="Robots" content="..."> управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

Инструкции по индексации записываются в поле content. Возможны следующие инструкции:

NOINDEX - запрещает индексирование документа;
NOFOLLOW - запрещает проход по ссылкам, имеющимся в документе;
INDEX - разрешает индексирование документа;
FOLLOW - разрешает проход по ссылкам.
ALL - равносильно INDEX, FOLLOW
NONE - равносильно NOINDEX, NOFOLLOW
Значение по умолчанию: <meta name="Robots" content="INDEX, FOLLOW">.

В следующем примере робот может индексировать документ, но не должен выделять из него ссылки для поиска дальнейших документов:

<META name="ROBOTS" content="index, nofollow">

Имя тега, названия и значения полей нечувствительны к регистру.

В поле content дублирование инструкций, наличие противоречивых инструкций и т.п. не допускается; в частности, значение поле content не может иметь вид "none, nofollow".

   
Статистика  
   
Статьи:

Интернет и деньги -- 113
Раскрутка сайта -- 125
Веб-мастеру -- 109
Разное -- 135
Всего -- 482

Электронные книги:

Web-технологии -- 28
Интернет-бизнес -- 93
Философия-бизнеса -- 65
Сетевой-маркетинг -- 23
Раскрутка сайта -- 17
Всего -- 226

Учебники:

HTML -- 9
CSS -- 5
JavaScript -- 6
Всего -- 20

Бизнес:

Бизнес-статьи -- 127
Бизнес-планы -- 67