Итак, я хочу выполнить парсинг веб-страниц для проекта.
Что есть в проекте, так это то, что в нем реализована тряпка, и я хотел добавить еще немного информации в модель, поэтому решил извлечь стенограммы из YouTube и используйте его для получения более обобщенных способов.
Получение и создание ссылок на YouTube прошло успешно. Однако, когда я попытался учесть веб-сайты, я столкнулся с трудностями.
Итак, все, что я использовал, это то, что я уже использовал HTML-празеры и регулярные выражения, чтобы получить данные без шума, по-прежнему извлекая файлы веб-сайтов из раздела комментариев. и некоторые материалы были связаны с объединением данных.
Будем признательны, если кто-нибудь сможет помочь. Аригато:)
Технологии, которые я пробовал, - это "selenium", "beautifulsoul"
Я написал HTML-празер и использовал регулярное выражение, чтобы избавиться от шума внутри данных, но это все еще существует.
Подробнее здесь: https://stackoverflow.com/questions/790 ... -rag-model
Веб-скрапинг с использованием селена и beautifulsoup для использования в модели RAG. ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Веб-скрапинг Python: BeautifulSoup не показывает весь исходный контент HTML
Anonymous » » в форуме Python - 0 Ответы
- 10 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Веб-скрапинг веб-сайта с таблицей с разбивкой на страницы, но без кнопки «Далее»
Anonymous » » в форуме Python - 0 Ответы
- 16 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Веб-скрапинг веб-сайта с таблицей с разбивкой на страницы, но без кнопки «Далее»
Anonymous » » в форуме Python - 0 Ответы
- 10 Просмотры
-
Последнее сообщение Anonymous
-