Инструменты для вебмастера

Файл robots.txt для сайта Joomla

 

Файл  robots.txt текстовой файл, для управления поведением поисковых машин при сканировании сайта.  Используя директории disallow можно закрывать от сканирования отдельные страницы сайта, его разделы и сайт целиком.   

О файле robots.txt 

Не стоит откладывать шаги по подготовке сайта к индексации до заполнения его материалами. Основную подготовку сайта к индексации можно сделать сразу после создания сайта.

Основными инструментами индексации сайта в поисковых системах Google, Яндекс, Bing и других являются карта-сайта Sitemap и текстовой файл robots.txt. Если карта-сайта создает cтруктуру сайта, которую можно выложить в интернет, то с помощью файла robots.txt можно управлять, что поисковики должны индексировать, а что от них нужно спрятать.

Файл robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны индекировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле robots.txt.

Чтобы посмотреть, как выглядит файл robots.txt ( если он есть в каталоге сайта), достаточно в строке браузера к имени сайта, через слеш приписать robots.txt.

Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно посмотреть на Яндекс (http://help.yandex.ru/webmaster/?id=996567). Здесь остановлюсь на основных правилах, которые помогут создать файл robots.txt для сайта Joomla.

Правила создания файла robots.txt

Для начала обращу ваше внимание: файл robots.txt должен создаваться индивидуально, учитывая особенности структуры сайта и политики его продвижения. Предложенный вариант файла является условным и примерным и не может претендовать на универсальность.  

Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

Пустой файл robots.txt означает индексацию всего сайта.

Казалось бы, что тут плохого. Пусть поисковики индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, и другой мусорный материал. Поисковики этого не любят, особенно дубли страниц, да и за этим «мусором» основной материал может теряться.

Директивы файла robots.txt

  • «User-agent» это именное или общее обращение к поисковикам.
  • «Allow» это разрешающие директивы;
  • «Disallow» это запрещающие директивы.

Директива «User-agent»

Если в строке User-agent поисковик не указан, в строке «User-agent» стоит звездочка (*), значит, все директивы файла robots.txt относятся ко всем поисковикам.

Можно задать правила индексации для определенного поисковика. Например, правила для Яндекс должны прописываться в директиве «User-agent» ,так

User-agent: Yandex

Приведу пример других поисковиков ,которые можно прописать в директории «User-agent».

  • Google Googlebot
  • Yahoo! Slurp ( или Yahoo! Slurp)
  • AOL Slurp
  • MSN MSNBot
  • Live MSNBot
  • Ask Teoma
  • AltaVista Scooter
  • Alexa ia_archiver
  • Lycos Lycos
  • Яндекс Yandex
  • Рамблер StackRambler
  • Мэйл.ру Mail.Ru
  • Aport Aport
  • Вебальта WebAlta (WebAlta Crawler/2.0)

Важно! В файле robots.txt обязательна, должна быть директива «Disallow». Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.

Разберем знаки синтаксиса, которые задают правила индексации

Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).

  • Символ «звездочка» (*) означает «любой» , «все».
  • Символ ($) отменяет (*)
  • Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.

Например, строка:

Disallow:

Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта. А строка:

Disallow: /

Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта. Строка типа:

Disallow: /components/

Полностью формирует запрет на всю папку /components/ ,которая находится по адресу: http://ваш_сайт/components/

А вот строка

Disallow: /components

Создает запрет на папку “components” и на все файлы и папки начинающиеся на “components”. Например: “components56”;”components77”.

Если к приведенным примерам директорий “Disallow”, добавить для какого поисковика это правило создано, получаем готовый файл robots.txt

User-agent: Yandex

Disallow:

Это файл robots.txt который означает, что поисковик Yandex может индексировать весь сайт без исключений.

А такое написание строк:

User-agent: Yandex

Disallow: /

Наоборот полностью запрещает Yandex индексировать весь сайт.

Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.

Следующий пример это файл robots.txt шаблонного (только, что установленного) сайта на Joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.

Дополнительная информация в файле robots.txt

В файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.

  • Sitemap: http://exempl.com/sitemap.xml.gz
  • Sitemap: http://exempl.com/sitemap.xml

Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.

Host: www.vash-site.com # означает, что основное зеркало сайта с www.

или

Host: vash-site.com #означает, что основной домен сайта без www.

Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и после двоеточия всё должно быть написано в нижнем регистре.

Важно! Старайтесь не использовать шаблоные файла robots.txt взятвые из Интернет (кроме robots.txt Joomla по умочанию). Каждый фал robots.txt должен составляться индивидуально и редактироваться в зависимости от посещаемости сайта и его SEO анализа.  

В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru или https://vash_sait.ru
Sitemap: http://ВАШ-САЙТ/карта сайта.xml

В итоге, еще раз замечу, Файл robots.txt  для сайта Joomla составляется индивидуально, хотя для начала работ вы можете найти рекомендаванные готовые файлы robots.txt.

Joomla-abc.ru

Другие статьи раздела: Поисковая оптимизация Joomla

Подписка по Email

Компонент Sh404