IT-гигант планирует отозвать инструмент, отвечающий за сканирование robots.txt. Теперь новый отчет содержит в себе такие функции:
ТОП‑20 хостов;
корневой файл;
дата последнего сканирования и все варианты файла, которые были до этого;
игнорируемые строки.
В Google заявили, что новый отчет заменит собой инструмент проверки robots.txt. В этой статье мы рассмотрим альтернативы для анализа файла.
Что это все значит
Простыми словами, Google Search Console (GSC) — это инструмент, помогающий владельцам сайтов отслеживать, как отображается SERP. Он предоставляет различную информацию о том, как поисковый робот Google индексирует сайт.
GSC выпустил новый отчет robots.txt. Теперь он используется для управления тем, как поисковый движок будет взаимодействовать с сайтом. Этот отчет показывает информацию о файлах robots.txt для различных частей вашего сайта.
Важно отметить, что Google собирается прекратить поддержку robots.txt, который раньше помогал владельцам сайтов удостовериться, что их файл robots.txt настроен правильно. Это произойдет 12 декабря 2023 года.
Теперь в отчете robots.txt вы увидите информацию о файлах для основных хостов, а также для разных разделов вашего сайта. Отчет также покажет число крайней проверки документа, его статус, размер, старые версии и игнорируемые строки.
Кроме того, теперь можно отправить файл robots.txt на экспресс-пересмотр. Это удобно, если вы внесли изменения и хотите, чтобы Google быстро обновил данные.
Какие есть альтернативы
Однако, несмотря на решение Google, пользователи все еще смогут проверить правильность настройки валидатора robots.txt. Это можно сделать с помощью сторонних сервисов.
Merkle
Merkle — это компания, ориентированная на создание клиентских взаимодействий, основанных на данных.
Merkle предоставляет отдельный инструмент для сканирования файла robots.txt. Вы можете использовать этот инструмент для проверки своего файла robots.txt и подтверждения, что он настроен правильно. В процессе проверки вы можете убедиться:
блокируется ли определенный URL-адрес;
какой оператор блокирует данный URL-адрес;
для какого пользовательского агента установлено правило блокировки;
проверить, разрешен ли доступ к ресурсам страницы, таким как CSS, JavaScript, изображениям.
Этот инструмент обеспечивает прозрачность в отношении того, как поисковые роботы будут взаимодействовать с вашим сайтом на основе правил robots.txt, что является важным аспектом для эффективной оптимизации и индексации в поисковых системах.
ScreamingFrog
SEO Spider Screaming Frog предоставляет решение для тестирования и валидации файла robots.txt сайта, что важно для оптимизации поисковых систем. Robots.txt указывает ботам поисковых систем, какие URL-адреса можно индексировать на сайте, и SEO Spider упрощает этот процесс.
Чтобы протестировать robots.txt сайта, загрузите SEO Spider, введите необходимый URL. Вкладка Response Codes в сочетании с фильтром Blocked by Robots.txt выделяет запрещенные URL-адреса, что важно для избегания непреднамеренных ограничений доступа. Инструмент отображает соответствующую строку в файле robots.txt, предоставляя подробные сведения.
Функция пользовательского robots.txt, доступная с лицензией, позволяет пользователям загружать, редактировать и тестировать файл robots.txt сайта, обеспечивая всестороннюю валидацию.
Соблюдение инструментом протокола robots.txt соответствует стандартам Google, обеспечивая точность результатов тестирования. Пользователи могут точно настраивать директивы, просматривать заблокированные/разрешенные URL-адреса и экспортировать данные для анализа.
SEO Spider поддерживает использование подстановочных символов, повторяя стандарты Google и обеспечивая тонкую настройку директив. Важно помнить, что robots.txt в первую очередь предотвращает просмотр контента поисковыми системами, но не гарантирует исключение из индексов поисковых систем.
Robots.txt Parser
Этот специализированный сервис позволяет вам анализировать файл robots.txt так, как это делают поисковые роботы Google.
Созданный Уиллом Критчлоу, генеральным директором SearchPilot и SEO-партнером Brainlabs, инструмент обеспечивает эмуляцию поведения Googlebot для корректной настройки вашего веб-сайта под поисковые системы.
Основные функции:
Выбор краулера. Выберите из различных Googlebot, таких как Googlebot, Googlebot Image, News или Video, или укажите пользовательский агент для других краулеров.
Настройка Robots.txt. Введите ваш файл robots.txt в предоставленное текстовое поле, следуя формату RFC3986. Эмулируйте поведение краулеров Google, указывая директивы и пути для каждого агента пользователя.
Тестирование пути. Укажите путь для проверки по указанному пользовательскому агенту, обеспечив соблюдение формата RFC3986. Инструмент соотносит пути, согласно спецификации REP, отражая проект с открытым исходным кодом Google.
Инструмент упрощает доступ и принимает упорядоченный кортеж агентов пользователя для расширенного функционала, имитируя поведение краулеров Google в реальных сценариях.
Файл robots.txt инструмента выявляет различия между Googlebot и Googlebot Image, обеспечивая точность в реальных условиях. Он позволяет тестировать и проверять работу против различных краулеров Google.
Для Googlebot Image, News или Video инструмент ищет правила, направленные на конкретный краулер, переходя к Googlebot, если не они найдены.
Опции AdsBot и AdSense (user-agent mediapartners-google) уважают только правила, направленные на этот агент пользователя, игнорируя блоки user-agent.
TameTheBots
Сервис Robots.txt Testing Tool предоставляет возможность проверки списка URL-адресов на соответствие правилам файла robots.txt для определения того, разрешен или запрещен доступ к ним, а также определения конкретного правила блокировки или разрешения.
Для реализации данной функциональности используется библиотека Google Robots.txt Parser and Matcher, которая анализирует и сопоставляет правила так же, как это делается в продакшн-среде Google.
Парсинг и сопоставление представляют собой лишь часть картинки, поскольку поисковые системы могут выбирать игнорировать определенные правила или прибегать к использованию дополнительных соглашений.
Например, Googlebot Image может применять правила Googlebot, если не обнаружит специфичных правил user-agent. Этот инструмент стремится эмулировать такое поведение для Google и Applebot.
Сервис позволяет пользователям понять, какие URL-адреса могут быть проиндексированы поисковыми системами, а какие исключены из индексации. Такая информация крайне важна для оптимизации сайта и обеспечения правильной видимости контента в поисковых результатах.
Робот способен выявить проблемы с правилами robots.txt, предоставляя владельцам сайтов ценные сведения для улучшения индексации и видимости их ресурсов в сети.
Резюмируем
В этой статье мы рассказали о том, что в скором времени Google прекратит поддержку инструмента сканирования robots.txt для сайтов, и предложили 4 достойные альтернативы этому сервису.