Владельцы веб-сайтов исключают веб-сканеры, используя протокол исключения роботов (REP) для файлов robots.txt в течение 25 лет. По данным Google, более 500 миллионов веб-сайтов используют файлы robots.txt для общения с ботами. До сих пор не существовало официального Интернет-стандарта или задокументированной спецификации для правильного написания правил в соответствии с протоколом. На протяжении многих лет разработчики делились своими различными интерпретациями протокола, но это привело к появлению множества различных неоднозначных методов управления поисковыми роботами.
Google работает вместе с Мартином Костером, первоначальным автором протокола, веб-мастерами и другими поисковыми системами, чтобы создать предложение для представления в Инженерную рабочую группу Интернета (IETF) для стандартизации REP:
Предлагаемый проект REP отражает более чем 20-летний реальный опыт использования правил robots.txt, используемых как роботом Googlebot, так и другими крупными сканерами, а также около полумиллиарда веб-сайтов, полагающихся на REP. Эти мелкозернистые элементы управления дают издателю возможность решить, что он хотел бы сканировать на своем сайте и потенциально показывать заинтересованным пользователям. Он не меняет правил, созданных в 1994 году, а скорее определяет практически все неопределенные сценарии синтаксического анализа и сопоставления robots.txt и расширяет его для современной сети.
Предлагаемая спецификация включает несколько основных пунктов, которые веб-мастера и разработчики захотят просмотреть. Он расширяет использование robots.txt на любой протокол передачи на основе URI (FTP, CoAP и др.) Вместо того, чтобы ограничивать его только HTTP. Он также реализует новое максимальное время кеширования в 24 часа и позволяет владельцам веб-сайтов обновлять robots.txt всякий раз, когда они захотят, без того, чтобы сканеры перегружали свои сайты запросами. Если ранее доступный файл robots.txt становится недоступным по какой-либо причине, сканеры будут уважать известные запрещенные страницы, которые ранее были идентифицированы в течение «достаточно длительного периода времени».
Google также открыл исходный код библиотеки C ++, которую он использует для синтаксического анализа и сопоставления правил в файлах robots.txt, а также инструмент тестирования для проверки правил. Разработчики могут использовать этот синтаксический анализатор для создания синтаксических анализаторов, использующих предложенные требования REP. Он был обновлен, чтобы гарантировать, что робот Googlebot сканирует только то, что ему разрешено, и теперь доступен на GitHub .
«Эта библиотека существует уже 20 лет и содержит фрагменты кода, написанные в 90-х годах», – говорится в заявлении группы Google Search Open Sourcing . «С тех пор библиотека развивалась; мы многое узнали о том, как веб-мастера пишут файлы robots.txt и критические кейсы, которые нам приходилось закрывать, и добавили то, что мы узнали за эти годы, также в интернет-черновик, когда это имело смысл ».
Лиззи Харви, которая ведет документацию для разработчиков Google Search, обновила спецификацию robots.txt, чтобы она соответствовала черновику REP. Ознакомьтесь с полным списком изменений, если вы хотите сравнить свой файл robots.txt с предложенной спецификацией. Если предложение по стандартизации REP будет успешно принято IETF, дни поиска в Google и недокументированных правил robots.txt скоро закончатся.