Википедия возвращает 403 при использовании sphinx linkcheck для проверки неработающих ссылок

Википедия возвращает 403 при использовании sphinx linkcheck для проверки неработающих ссылок ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Википедия возвращает 403 при использовании sphinx linkcheck для проверки неработающих ссылок

Цитата

Сообщение Anonymous » 18 дек 2025, 18:13

Мы используем проверку ссылок sphinx, чтобы убедиться, что наши документы не содержат неработающих ссылок, но Википедия начала возвращать ошибку 403, предполагая, что наш CI — робот. Честно говоря, это робот, сталкивался ли кто-нибудь с этой проблемой раньше и каково лучшее решение?
Полное сообщение об ошибке:

Код: Выделить всё

403 Client Error: Too many requests. Please respect our robot policy https://w.wiki/4wJS.

Я знаю, что мы можем использовать linkcheck_ignore для чего угодно в этом домене, но это лишает смысла проверку неработающих ссылок.
Можно ли использовать какой-то прокси/кэш, который сохранял бы копию веб-страницы? Наши документы/CI могли бы сначала проверить кеш и сохранить количество обращений к внешнему сайту. Есть ли автоматизированный способ сделать это, или нам придется сохранять интересующие страницы вручную и настраивать свои собственные? Мы уже сделали это для некоторых страниц, которые исчезли из Интернета (спасибо Wayback Machine за сохранение копии).

Подробнее здесь: https://stackoverflow.com/questions/798 ... oken-links

1766070838

Anonymous

Мы используем проверку ссылок sphinx, чтобы убедиться, что наши документы не содержат неработающих ссылок, но Википедия начала возвращать ошибку 403, предполагая, что наш CI — робот. Честно говоря, это робот, сталкивался ли кто-нибудь с этой проблемой раньше и каково лучшее решение?
Полное сообщение об ошибке:
[code]403 Client Error: Too many requests. Please respect our robot policy https://w.wiki/4wJS.
[/code]
Я знаю, что мы можем использовать linkcheck_ignore для чего угодно в этом домене, но это лишает смысла проверку неработающих ссылок.
Можно ли использовать какой-то прокси/кэш, который сохранял бы копию веб-страницы? Наши документы/CI могли бы сначала проверить кеш и сохранить количество обращений к внешнему сайту. Есть ли автоматизированный способ сделать это, или нам придется сохранять интересующие страницы вручную и настраивать свои собственные? Мы уже сделали это для некоторых страниц, которые исчезли из Интернета (спасибо Wayback Machine за сохранение копии). 

Подробнее здесь: [url]https://stackoverflow.com/questions/79850436/wikipedia-returns-403-when-using-sphinx-linkcheck-to-check-for-broken-links[/url]

Ответить

1 сообщение • Страница 1 из 1