Я хочу выполнить парсинг веб-страниц для проекта.
В проекте реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь расшифровки из YouTube и используйте его для получения более обобщенных способов.
Получение и создание ссылок на YouTube прошло успешно. Однако, когда я попытался учесть веб-сайты, я столкнулся с трудностями.
Итак, все, что я использовал, это то, что я уже использовал HTML-празеры и регулярные выражения, чтобы получить данные без шума, по-прежнему извлекая файлы веб-сайтов из раздела комментариев. и некоторые вещи были связаны с объединением данных.
Технологии, которые я пробовал, - это "selenium", "beautifulsoul".
Я сделал HTML Praser и использовал регулярное выражение для избавиться от шума внутри данных, но он все равно останется.
Подробнее здесь: https://stackoverflow.com/questions/790 ... -rag-model
Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG [закрыто] ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG.
Anonymous » » в форуме Python - 0 Ответы
- 10 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Веб-скрапинг Python: BeautifulSoup не показывает весь исходный контент HTML
Anonymous » » в форуме Python - 0 Ответы
- 10 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Веб-скрапинг веб-сайта с таблицей с разбивкой на страницы, но без кнопки «Далее»
Anonymous » » в форуме Python - 0 Ответы
- 16 Просмотры
-
Последнее сообщение Anonymous
-