Википедия возвращает 403 при использовании sphinx linkcheck для проверки неработающих ссылокPython

Программы на Python
Ответить
Anonymous
 Википедия возвращает 403 при использовании sphinx linkcheck для проверки неработающих ссылок

Сообщение Anonymous »

Мы используем проверку ссылок sphinx, чтобы убедиться, что наши документы не содержат неработающих ссылок, но Википедия начала возвращать ошибку 403, предполагая, что наш CI — робот. Честно говоря, это робот, сталкивался ли кто-нибудь с этой проблемой раньше и каково лучшее решение?
Полное сообщение об ошибке:

Код: Выделить всё

403 Client Error: Too many requests. Please respect our robot policy https://w.wiki/4wJS.
Я знаю, что мы можем использовать linkcheck_ignore для чего угодно в этом домене, но это лишает смысла проверку неработающих ссылок.
Можно ли использовать какой-то прокси/кэш, который сохранял бы копию веб-страницы? Наши документы/CI могли бы сначала проверить кеш и сохранить количество обращений к внешнему сайту. Есть ли автоматизированный способ сделать это, или нам придется сохранять интересующие страницы вручную и настраивать свои собственные? Мы уже сделали это для некоторых страниц, которые исчезли из Интернета (спасибо Wayback Machine за сохранение копии).

Подробнее здесь: https://stackoverflow.com/questions/798 ... oken-links
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»