Файл robots.txt для сайта Joomla

 

Файл  robots.txt текстовой файл, для управления поведением поисковых машин при сканировании сайта.  Используя директории disallow можно закрывать от сканирования отдельные страницы сайта, его разделы и сайт целиком.   

О файле robots.txt 

Не стоит откладывать шаги по подготовке сайта к индексации до заполнения его материалами. Основную подготовку сайта к индексации можно сделать сразу после создания сайта.

Основными инструментами индексации сайта в поисковых системах Google, Яндекс, Bing и других являются карта-сайта Sitemap и текстовой файл robots.txt. Если карта-сайта создает cтруктуру сайта, которую можно выложить в интернет, то с помощью файла robots.txt можно управлять, что поисковики должны индексировать, а что от них нужно спрятать.

Файл robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны индекировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле robots.txt.

Чтобы посмотреть, как выглядит файл robots.txt ( если он есть в каталоге сайта), достаточно в строке браузера к имени сайта, через слеш приписать robots.txt.

Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно посмотреть на Яндекс (http://help.yandex.ru/webmaster/?id=996567). Здесь остановлюсь на основных правилах, которые помогут создать файл robots.txt для сайта Joomla.

Правила создания файла robots.txt

Для начала обращу ваше внимание: файл robots.txt должен создаваться индивидуально, учитывая особенности структуры сайта и политики его продвижения. Предложенный вариант файла является условным и примерным и не может претендовать на универсальность.  

Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>

Пустой файл robots.txt означает индексацию всего сайта.

Казалось бы, что тут плохого. Пусть поисковики индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, и другой мусорный материал. Поисковики этого не любят, особенно дубли страниц, да и за этим «мусором» основной материал может теряться.

Директивы файла robots.txt

  • «User-agent» это именное или общее обращение к поисковикам.
  • «Allow» это разрешающие директивы;
  • «Disallow» это запрещающие директивы.

Директива «User-agent»

Если в строке User-agent поисковик не указан, в строке «User-agent» стоит звездочка (*), значит, все директивы файла robots.txt относятся ко всем поисковикам.

Можно задать правила индексации для определенного поисковика. Например, правила для Яндекс должны прописываться в директиве «User-agent» ,так

User-agent: Yandex

Приведу пример других поисковиков ,которые можно прописать в директории «User-agent».

  • Google Googlebot
  • Yahoo! Slurp ( или Yahoo! Slurp)
  • AOL Slurp
  • MSN MSNBot
  • Live MSNBot
  • Ask Teoma
  • AltaVista Scooter
  • Alexa ia_archiver
  • Lycos Lycos
  • Яндекс Yandex
  • Рамблер StackRambler
  • Мэйл.ру Mail.Ru
  • Aport Aport
  • Вебальта WebAlta (WebAlta Crawler/2.0)

Важно! В файле robots.txt обязательна, должна быть директива «Disallow». Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.

Разберем знаки синтаксиса, которые задают правила индексации

Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).

  • Символ «звездочка» (*) означает «любой» , «все».
  • Символ ($) отменяет (*)
  • Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.

Например, строка:

Disallow:

Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта. А строка:

Disallow: /

Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта. Строка типа:

Disallow: /components/

Полностью формирует запрет на всю папку /components/ ,которая находится по адресу: http://ваш_сайт/components/

А вот строка

Disallow: /components

Создает запрет на папку “components” и на все файлы и папки начинающиеся на “components”. Например: “components56”;”components77”.

Если к приведенным примерам директорий “Disallow”, добавить для какого поисковика это правило создано, получаем готовый файл robots.txt

User-agent: Yandex

Disallow:

Это файл robots.txt который означает, что поисковик Yandex может индексировать весь сайт без исключений.

А такое написание строк:

User-agent: Yandex

Disallow: /

Наоборот полностью запрещает Yandex индексировать весь сайт.

Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.

Следующий пример это файл robots.txt шаблонного (только, что установленного) сайта на Joomla

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.

Дополнительная информация в файле robots.txt

В файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.

  • Sitemap: http://exempl.com/sitemap.xml.gz
  • Sitemap: http://exempl.com/sitemap.xml

Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.

Host: www.vash-site.com # означает, что основное зеркало сайта с www.

или

Host: vash-site.com #означает, что основной домен сайта без www.

Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и после двоеточия всё должно быть написано в нижнем регистре.

Важно! Старайтесь не использовать шаблоные файла robots.txt взятвые из Интернет (кроме robots.txt Joomla по умочанию). Каждый фал robots.txt должен составляться индивидуально и редактироваться в зависимости от посещаемости сайта и его SEO анализа.  

В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru или https://vash_sait.ru
Sitemap: http://ВАШ-САЙТ/карта сайта.xml

В итоге, еще раз замечу, Файл robots.txt  для сайта Joomla составляется индивидуально, хотя для начала работ вы можете найти рекомендаванные готовые файлы robots.txt.

Joomla-abc.ru

Другие статьи раздела: Поисковая оптимизация Joomla

Подписка по Email

Рекомендуем