WPTec

Categories: Мнение

Google предпринимает попытки сделать протокол исключения роботов стандартом Интернета, парсер Robots.txt с открытыми исходными кодами

Владельцы веб-сайтов исключают веб-сканеры, используя протокол исключения роботов (REP) для файлов robots.txt в течение 25 лет. По данным Google, более 500 миллионов веб-сайтов используют файлы robots.txt для общения с ботами. До сих пор не существовало официального Интернет-стандарта или задокументированной спецификации для правильного написания правил в соответствии с протоколом. На протяжении многих лет разработчики делились своими различными интерпретациями протокола, но это привело к появлению множества различных неоднозначных методов управления поисковыми роботами.

Google работает вместе с Мартином Костером, первоначальным автором протокола, веб-мастерами и другими поисковыми системами, чтобы создать предложение для представления в Инженерную рабочую группу Интернета (IETF) для стандартизации REP:

Предлагаемый проект REP отражает более чем 20-летний реальный опыт использования правил robots.txt, используемых как роботом Googlebot, так и другими крупными сканерами, а также около полумиллиарда веб-сайтов, полагающихся на REP. Эти мелкозернистые элементы управления дают издателю возможность решить, что он хотел бы сканировать на своем сайте и потенциально показывать заинтересованным пользователям. Он не меняет правил, созданных в 1994 году, а скорее определяет практически все неопределенные сценарии синтаксического анализа и сопоставления robots.txt и расширяет его для современной сети.

Предлагаемая спецификация включает несколько основных пунктов, которые веб-мастера и разработчики захотят просмотреть. Он расширяет использование robots.txt на любой протокол передачи на основе URI (FTP, CoAP и др.) Вместо того, чтобы ограничивать его только HTTP. Он также реализует новое максимальное время кеширования в 24 часа и позволяет владельцам веб-сайтов обновлять robots.txt всякий раз, когда они захотят, без того, чтобы сканеры перегружали свои сайты запросами. Если ранее доступный файл robots.txt становится недоступным по какой-либо причине, сканеры будут уважать известные запрещенные страницы, которые ранее были идентифицированы в течение «достаточно длительного периода времени».

Google также открыл исходный код библиотеки C ++, которую он использует для синтаксического анализа и сопоставления правил в файлах robots.txt, а также инструмент тестирования для проверки правил. Разработчики могут использовать этот синтаксический анализатор для создания синтаксических анализаторов, использующих предложенные требования REP. Он был обновлен, чтобы гарантировать, что робот Googlebot сканирует только то, что ему разрешено, и теперь доступен на GitHub .

«Эта библиотека существует уже 20 лет и содержит фрагменты кода, написанные в 90-х годах», – говорится в заявлении группы Google Search Open Sourcing . «С тех пор библиотека развивалась; мы многое узнали о том, как веб-мастера пишут файлы robots.txt и критические кейсы, которые нам приходилось закрывать, и добавили то, что мы узнали за эти годы, также в интернет-черновик, когда это имело смысл ».

Лиззи Харви, которая ведет документацию для разработчиков Google Search, обновила спецификацию robots.txt, чтобы она соответствовала черновику REP. Ознакомьтесь с полным списком изменений, если вы хотите сравнить свой файл robots.txt с предложенной спецификацией. Если предложение по стандартизации REP будет успешно принято IETF, дни поиска в Google и недокументированных правил robots.txt скоро закончатся.

writer

Next Font Awesome расширяется за счет двухцветных цветов и разбивки значков »

Previous « Правдоподобная аналитика предлагает альтернативную статистическую службу, учитывающую конфиденциальность, против основных игроков.

WordPress Multisite Sync и Elementor. Как подружить?

Работая с плагином WordPress Multisite Sync столкнулся с проблемой. При синхронизации страниц данные от Elementor…

3 месяца ago

Мнение

Плагин Delete Me для WordPress помогает владельцам веб-сайтов предоставить право на забвение GDPR

Поскольку до крайнего срока соблюдения GDPR ЕС осталось всего 178 дней , многие владельцы сайтов…

2 года ago

Мнение

Команда Gutenberg наращивает юзабилити-тестирование в WordCamp US

Команда Gutenberg создаст станцию тестирования удобства использования в WordCamp US, где посетители смогут принять участие…

2 года ago

Мнение

Плагин распространителя теперь в бета-версии: новое решение для синдикации контента WordPress от 10up

Сегодня компания 10up опубликовала предварительную версию своего плагина Distributor , нового решения для синдикации контента…

2 года ago

Мнение

Gutenberg 1.8 добавляет большую расширяемость для разработчиков плагинов

На этой неделе был выпущен Gutenberg 1.8 с несколькими заметными улучшениями, которые предоставят разработчикам плагинов…

2 года ago

Новости

Gutenberg 15.5 представляет экспериментальную поддержку разметки сетки

На этой неделе был выпущен Gutenberg 15.5 с новыми функциями и улучшениями возможностей полнофункционального редактирования…

2 года ago

Google предпринимает попытки сделать протокол исключения роботов стандартом Интернета, парсер Robots.txt с открытыми исходными кодами

Related Post

Recent Posts

WordPress Multisite Sync и Elementor. Как подружить?

Плагин Delete Me для WordPress помогает владельцам веб-сайтов предоставить право на забвение GDPR

Команда Gutenberg наращивает юзабилити-тестирование в WordCamp US

Плагин распространителя теперь в бета-версии: новое решение для синдикации контента WordPress от 10up

Gutenberg 1.8 добавляет большую расширяемость для разработчиков плагинов

Gutenberg 15.5 представляет экспериментальную поддержку разметки сетки