Categories: Мнение

Google предпринимает попытки сделать протокол исключения роботов стандартом Интернета, парсер Robots.txt с открытыми исходными кодами

Владельцы веб-сайтов исключают веб-сканеры, используя протокол исключения роботов (REP) для файлов robots.txt в течение 25 лет. По данным Google, более 500 миллионов веб-сайтов используют файлы robots.txt для общения с ботами. До сих пор не существовало официального Интернет-стандарта или задокументированной спецификации для правильного написания правил в соответствии с протоколом. На протяжении многих лет разработчики делились своими различными интерпретациями протокола, но это привело к появлению множества различных неоднозначных методов управления поисковыми роботами.

Google работает вместе с Мартином Костером, первоначальным автором протокола, веб-мастерами и другими поисковыми системами, чтобы создать предложение для представления в Инженерную рабочую группу Интернета (IETF) для стандартизации REP:

Предлагаемый проект REP отражает более чем 20-летний реальный опыт использования правил robots.txt, используемых как роботом Googlebot, так и другими крупными сканерами, а также около полумиллиарда веб-сайтов, полагающихся на REP. Эти мелкозернистые элементы управления дают издателю возможность решить, что он хотел бы сканировать на своем сайте и потенциально показывать заинтересованным пользователям. Он не меняет правил, созданных в 1994 году, а скорее определяет практически все неопределенные сценарии синтаксического анализа и сопоставления robots.txt и расширяет его для современной сети.

Предлагаемая спецификация включает несколько основных пунктов, которые веб-мастера и разработчики захотят просмотреть. Он расширяет использование robots.txt на любой протокол передачи на основе URI (FTP, CoAP и др.) Вместо того, чтобы ограничивать его только HTTP. Он также реализует новое максимальное время кеширования в 24 часа и позволяет владельцам веб-сайтов обновлять robots.txt всякий раз, когда они захотят, без того, чтобы сканеры перегружали свои сайты запросами. Если ранее доступный файл robots.txt становится недоступным по какой-либо причине, сканеры будут уважать известные запрещенные страницы, которые ранее были идентифицированы в течение «достаточно длительного периода времени».

Google также открыл исходный код библиотеки C ++, которую он использует для синтаксического анализа и сопоставления правил в файлах robots.txt, а также инструмент тестирования для проверки правил. Разработчики могут использовать этот синтаксический анализатор для создания синтаксических анализаторов, использующих предложенные требования REP. Он был обновлен, чтобы гарантировать, что робот Googlebot сканирует только то, что ему разрешено, и теперь доступен на GitHub .

«Эта библиотека существует уже 20 лет и содержит фрагменты кода, написанные в 90-х годах», – говорится в заявлении группы Google Search Open Sourcing . «С тех пор библиотека развивалась; мы многое узнали о том, как веб-мастера пишут файлы robots.txt и критические кейсы, которые нам приходилось закрывать, и добавили то, что мы узнали за эти годы, также в интернет-черновик, когда это имело смысл ».

Лиззи Харви, которая ведет документацию для разработчиков Google Search, обновила спецификацию robots.txt, чтобы она соответствовала черновику REP. Ознакомьтесь с полным списком изменений, если вы хотите сравнить свой файл robots.txt с предложенной спецификацией. Если предложение по стандартизации REP будет успешно принято IETF, дни поиска в Google и недокументированных правил robots.txt скоро закончатся.

writer

Recent Posts

Плагин Delete Me для WordPress помогает владельцам веб-сайтов предоставить право на забвение GDPR

Поскольку до крайнего срока соблюдения GDPR ЕС осталось всего 178 дней , многие владельцы сайтов…

2 года ago

Команда Gutenberg наращивает юзабилити-тестирование в WordCamp US

Команда Gutenberg создаст станцию ​​тестирования удобства использования в WordCamp US, где посетители смогут принять участие…

2 года ago

Плагин распространителя теперь в бета-версии: новое решение для синдикации контента WordPress от 10up

Сегодня компания 10up опубликовала предварительную версию своего плагина Distributor , нового решения для синдикации контента…

2 года ago

Gutenberg 1.8 добавляет большую расширяемость для разработчиков плагинов

На этой неделе был выпущен Gutenberg 1.8 с несколькими заметными улучшениями, которые предоставят разработчикам плагинов…

2 года ago

Gutenberg 15.5 представляет экспериментальную поддержку разметки сетки

На этой неделе был выпущен Gutenberg 15.5 с новыми функциями и улучшениями возможностей полнофункционального редактирования…

2 года ago

DesktopServer 3.8.4 включает подарок сообществу

DesktopServer выпустил версию 3.8.4 своего программного обеспечения для локальной разработки. Эта версия включает в себя…

2 года ago