Мне нужно извлечь очень большой объем текста (html) из ресурса (mayocliniclabs.org, там есть /test_catalog, который включает в себя тысячи страниц о биомаркерах, которые мне нужны в текстовом формате). Я использую Python, но могу работать с любым языком, мне просто нужно решение, и каждый раз, когда я делаю это, используя некоторые библиотеки Python, я не могу очистить данные. Когда я делаю простой запрос, он возвращает 403, а когда я имитирую полную среду браузера, он работает очень медленно, данные не полны и даже не содержат текста на странице. Что бы вы порекомендовали?
Мой английский не идеален, как Python. спасибо.
я пробовал запросы, selenium, undetected_chromedriver, имитацию полной среды браузера,chatgpt
Подробнее здесь: https://stackoverflow.com/questions/791 ... m-doing-so
Мне нужна помощь в очистке данных с ресурса, который защищен от этого ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Проверьте, защищен ли лист Excel при использовании WorkbookReader в Exceljs.
Anonymous » » в форуме Javascript - 0 Ответы
- 12 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Я хочу, чтобы имя ресурса определялось пользователем в aws независимо от типа ресурса
Anonymous » » в форуме Python - 0 Ответы
- 29 Просмотры
-
Последнее сообщение Anonymous
-