От автора
Файл robots.txt текстовой файл, для управления поведением поисковых машин при сканировании сайта. Используя директории disallow можно закрывать от сканирования отдельные страницы сайта, его разделы и сайт целиком. Однако, disallow закрывают индексирование страниц только для ботов Яндекс.
О файле robots.txt
Не стоит откладывать шаги по подготовке сайта к индексации до заполнения его материалами. Основную подготовку сайта к индексации можно сделать сразу после создания сайта.
Основными инструментами для управления поисковых систем Google, Яндекс, Bing и других является текстовой файл robots.txt. С помощью файла robots.txt можно управлять, что поисковики должны сканировать, а что им следует обходить. Яндекс читает директивы файла robots.txt не только для разрешения на сканирование, но и разрешения на индексирование страниц. Если страница есть в запрете robots, Яндекс, через некоторое время уберет её из индекса, если она там есть, и не индексирует, если страницы нет в индексе.
Файл robots.txt это текстовой файл, размещаемый в корне сайта. В нем по определенным правилам прописывается, какой материал сайта поисковики должны сканировать, а какой материал «обходить стороной». Задать правила поведения поисковиков по отношению к материалу сайта необходимо в файле robots.txt.
Чтобы посмотреть, как выглядит файл robots.txt ( если он есть в каталоге сайта), достаточно в строке браузера к имени сайта, через слеш приписать robots.txt.
Создается файл robots.txt по определенным правилам. Правила эти называют синтаксис файла. Подробно синтаксис файла robots.txt можно посмотреть на Яндекс (https://help.yandex.ru/webmaster/?id=996567). Здесь остановлюсь на основных правилах, которые помогут создать файл robots.txt для сайта Joomla.
Правила создания файла robots.txt
Для начала обращу ваше внимание: файл robots.txt должен создаваться индивидуально, учитывая особенности структуры сайта и политики его продвижения. Предложенный вариант файла является условным и примерным и не может претендовать на универсальность.
Каждая строка в файле называется директива. Директивы файла robots.txt имеют следующий вид:
<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>
<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>
<ПОЛЕ>:<ПРОБЕЛ><ЗНАЧЕНИЕ><ПРОБЕЛ>
Пустой файл robots.txt означает индексацию всего сайта.
Казалось бы, что тут плохого. Пусть поисковики сканируют и индексируют весь материал сайта. Но это хорошо пока сайт пустой. С наполнением его материалами, постоянным редактированием, загрузкой фото, удалением материалов в индексацию попадают статьи, которые уже не имеют отношения к сайту, дублированные страницы, старые архивы, и другой мусорный материал. Поисковики этого не любят, особенно дубли страниц, да и за этим «мусором» основной материал может теряться.
Директивы файла robots.txt
- «User-agent» это именное или общее обращение к поисковикам.
- «Allow» это разрешающие директивы;
- «Disallow» это запрещающие директивы.
Директива «User-agent»
Если в строке User-agent поисковик не указан, в строке «User-agent» стоит звездочка (*), значит, все директивы файла robots.txt относятся ко всем поисковикам.
Можно задать правила индексации для определенного поисковика. Например, правила для Яндекс должны прописываться в директиве «User-agent» ,так
User-agent: Yandex
Приведу пример других поисковиков ,которые можно прописать в директории «User-agent».
- Google Googlebot
- Yahoo! Slurp ( или Yahoo! Slurp)
- AOL Slurp
- MSN MSNBot
- Live MSNBot
- Ask Teoma
- AltaVista Scooter
- Alexa ia_archiver
- Lycos Lycos
- Яндекс Yandex
- Рамблер StackRambler
- Мэйл.ру Mail.Ru
- Aport Aport
- Вебальта WebAlta (WebAlta Crawler/2.0)
Важно! В файле robots.txt обязательна, должна быть директива «Disallow». Даже если весь файл robots.txt пустой, директива «Disallow» в нем быть должна.
Разберем знаки синтаксиса, которые задают правила индексации
Разрешены следующие специальные символы «звездочка» (*); слеш (/); и ($).
- Символ «звездочка» (*) означает «любой» , «все».
- Символ ($) отменяет (*)
- Символ слеш (/) в одиночестве означает корневую директорию сайта, как разделитель слеш (/) показывает пути к файлам, для которых пишется правило.
Например, строка:
Disallow:
Означает запрет «ни для кого»,то есть отсутствие запрета для всего сайта. А строка:
Disallow: /
Означает запрет «для всех»,то есть запрет для всех папок и файлов сайта. Строка типа:
Disallow: /components/
Полностью формирует запрет на всю папку /components/ ,которая находится по адресу: http://ваш_сайт/components/
А вот строка
Disallow: /components
Создает запрет на папку “components” и на все файлы и папки начинающиеся на “components”. Например: “components56”;”components77”.
Если к приведенным примерам директорий “Disallow”, добавить для какого поисковика это правило создано, получаем готовый файл robots.txt
User-agent: Yandex
Disallow:
Это файл robots.txt который означает, что поисковик Yandex может индексировать весь сайт без исключений.
А такое написание строк:
User-agent: Yandex
Disallow: /
Наоборот полностью запрещает Yandex индексировать весь сайт.
Принцип понятен, разберу несколько примеров и в конце приведу классические файлы robots.txt для Yandex и Google.
Следующий пример это файл robots.txt шаблонного (только, что установленного) сайта на Joomla
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Этот файл robots.txt определяет правила для всех поисковиков и запрещает индексацию 15 папок сайта, находящихся в корневой директории (корне) сайта.
Дополнительная информация в файле robots.txt
В файле robots.txt нужно указать поисковикам адрес карты-сайта Sitemap и зеркальный домен для поисковика Yandex.
- Sitemap: http://exempl.com/sitemap.xml.gz
- Sitemap: http://exempl.com/sitemap.xml
Отдельно можно сделать robots.txt для Яндекс,чтобы в нем сделать директиву Host и в ней указать зеркало сайта.
Host: www.vash-site.com # означает, что основное зеркало сайта с www.
или
Host: vash-site.com #означает, что основной домен сайта без www.
Важно! При написании файла robots.txt не забывайте про пробел после двоеточия, и после двоеточия всё должно быть написано в нижнем регистре.
Важно! Старайтесь не использовать шаблоные файла robots.txt взятвые из Интернет (кроме robots.txt Joomla по умочанию). Каждый фал robots.txt должен составляться индивидуально и редактироваться в зависимости от посещаемости сайта и его SEO анализа.
В конце статьи приведу пример правильного файла robots.txt для сайта на Joomla.
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /tmp/
Disallow: /templates/
User-agent: Yandex
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /templates/
Disallow: /*?*
Host: domen.ru (или https://domen.ru)
Sitemap: http://domen.ru/sitemap.xml (или https://domen.ru/sitamap.xml)
Выводы
Несмотря на традиции, замечу, для закрытия страниц сайт от индексации используйте внутренние инструменты CSM. Во всех редакторах контента есть вставке тегов noindex, nofollow.
Рекомендую использовать robots.txt для:
- закрытия всего сайта при его создании;
- закрытия сайта от ненужных поисковиков;
- закрытия личных разделов;
- снижения нагрузки на сервер (директива crawl-delay).
Не рекомендую применять robots.txt для:
- закрытия индексации страниц пейджинга, сортировки и поиска;
- Закрывать дубли страниц только для Яндекс, а для Google использовать средства CMS;
- Не пытаться удалить из индекса Google страницы и разделы. Это работает только для Яндекс.
В итоге, еще раз замечу, файл robots.txt для сайта Joomla составляется индивидуально. Для начала работ используйте коробочную версия файла robots.txt.disc, который переименуйте в robots.txt и разделите на две секции, одна для Яндекс и вторая, для всех остальных ботов. Для Яндекс обязательно добавьте директорию Host, указав в ней главное зеркало сайта.
©Joomla-abc.ru
Другие статьи раздела: Поисковая оптимизация Joomla
- Sh404sef SEF компонент Joomla – зачем нужен, основной функционал
- Как проверить позиции сайта Joomla в выдаче Яндекс и Google
- Как удалить ссылку Artio JoomSef
- Компонент Artio JoomSEF – знакомство, зачем нужен, функционал
- Метки Joomla в оптимизации сайта
- Настройка названий и конфигурация мета-тегов Artio JoomSEF
- Общие правила SEO оптимизации на Joomla
- Проверка битых ссылок Joomla сайта программой XENU
- Работа с URL в Artio JoomSEF компоненте Joomla
- Склейка зеркал сайта Joomla, два способа
Похожие статьи
Как начать контролировать доступнос...
Доступность и работоспособность сайта — это важнейшие факторы его ранжирова...
Карта сайта для поисковиков, генера...
Важнейшим элементом навигации сайта Joomla, а также частью его SEO оптимиза...