Вести от компании добра — письмо счастья — переделываем robot.txt

Опубликовано: Июль 30, 2015 в 07:17 Категории: Google и Yandex,Оптимизация

Пришло письмо от Google: «Googlebot не может получить доступ к файлам CSS и JS на сайте«. Всевидящее око Google решило снова пнуть вебмастеров. 28 июля многие владельцы сайтов, а точнее те которые озаботились и подключили Google Webmaster для контроля за показателями проектов, получили письма счастья, в которых были рекомендации по изменению порядка доступа к скриптам и css сайтов. По большей части это относилось только к тем проектам, кто старательно оптимизировал и закрывал доступ к лишней и ненужной информации. Для WordPress это были папки содержащие файлы движка, плагины, темы и пр, что не несло ничего полезного для пользователя. Но теперь поисковый гигант решил со всем этим лично ознакомиться.

Теперь по порядку, или в каком то подобии порядка. Google Webmaster переименовали в Google Search Console. Если ваш сайт зарегистрирован в этом сервисе, то вы получили письмо такого содержания:

Googlebot не может получить доступ к файлам CSS и JS на сайте

Мы обнаружили на Вашем сайте проблему, которая может помешать его сканированию. Робот Googlebot не может обработать код JavaScript и/или файлы CSS из-за ограничений в файле robots.txt. Эти данные нужны, чтобы оценить работу сайта. Поэтому если доступ к ресурсам будет заблокирован, то это может ухудшить позиции Вашего сайта в Поиске.

Без паники, ничего страшного нет, просто предстоит корректировка Robot.txt.

Поисковик ставит своей задачей не только предоставление качественного контента, но и само предоставление/оформление контента. С этим разработчики уже давно столкнулись, еще в те времена, когда для мобильных сайтов потребовалось вводить респонсивную верстку или создавать специальную тему для мобильных устройств. Эта идея и получила дальнейшее развитие в Google Search Console, теперь возможность анализа оформления контента будет возложена на поискового бота — соответствующие инструменты для проверки добавлены.

Что делать в этом случае? Ну, если вы никогда не слышали ни о Google Webmaster, ни тем более о Google Search Console, то наверное стоит начать с изучения этих сервисов, или попросту о них забыть (хотя тогда на вас обидится злопамятный Google и будет унижать ваш проект при выдаче). Если же ваш проект был зарегистрирован в этих сервисах, то стоит туда заглянуть и проверить как видит ваш проект Google-bot. Для этого достаточно войти в консоль и выбрав нужный сайт запустить проверку: «Сканирование»-«Посмотреть как Googltbot». Надо сказать что процесс занимает некоторое время — минуты 2-3, после чего можно получить доступ к картинкам, которые покажут как видит ваш проект поисковик и простой пользователь, а также ознакомиться с замечаниями. В идеале надо добиться, чтобы бот и пользователь видели сайт одинаково, ну и естественно исправить все ошибки и запреты.

Как исправить ошибки Google Search Console?

Все представленные ошибки сводятся к одному — запрет доступа бота к определенным скриптам и css файлам. Запреты прописаны в файле Robot.txt, пришли к нам с тех времен, когда наоборот все скрипты и все лишнее старались закрыть от индексирования, чтобы снизить нагрузку от посещений роботов и закрыть ненужный контент от индексирования.

Список закрытых для доступа скриптов и стилей представлен в списке, который дает возможность, кстати очень просто, определить какая строка закрывает доступ к нужному файлу. В основном google требует открыть доступ к файлам WordPress:

каталог wp-includes — там хранятся заинтересовавшие Google скрипты
/wp-content/themes — каталог содержайщий темы, тут все понятно тема отвечает за вывод контента и содержит множество файлов отвечающих за это.
/wp-content/plugins — папка с плагинами, скрипты и css из которых требуются для оформления вывода страниц — это касается особенно использования всяческих бюлдеров контента

Пример зачистки robot.txt для Googlebot:

# Disallow: /wp-includes/
# Disallow: /wp-*
# Disallow: /wp-content/plugins/
# Disallow: /wp-content/cache/
# Disallow: /wp-content/themes/

Строки закомментированы

Несколько вариантов решения:

Создать в файле Robot.txt отдельный раздел для ботов Google и прописать им правила обхода сайта. Для остальных же использовать либо общие правила, либо прописывать отдельно под каждого бота (карамба, особенно если у вас 10, 20, 100 сайтов). Минусом этого решения является непредсказуемость Google, у которого по меньшей мере два активных бота — Googlebot для поисковой системы и Googlebot-Image для поиска картинок. Это основные боты, по заверениям Google, все его боты, по большей части будут подчиняться командам прописанным для Googlebot.
Вторым вариантом будет открыть доступ к нужным Google файлам для всех ботов — пусть копаются сами и ищет что им надо.
Стереть robot.txt и не мучаться, сосредоточившись на наполнении сайта.

Вывод

Борьба за удобство предоставления информации конечному пользователю вышла на новый виток. Это хорошо, а вот методы внедрения могли бы быть и помягче. Странная идея Google, напрягать вебмастеров изменять Robot.TXT, а что Googlebot не мог посмотреть, что там находится в этих файлах? Ладно, если уж так щепетильно относиться к правам и правилам, можно было просто указать где-то в правилах Google Search Console, которые никто не читает и которые все бы приняли, что дескать мы разрешаем шариться по сайту как попало и читать все файлы, что несомненно и так делается. Но нет теперь надо, прошерстить все 100500 сайтов, зачистить старательно прописанные блокировки robot.txt, убедить заказчиков в необходимости проведения этой работы… Слов нет.