Как извлечь тексты после первого тега h1? - Цифровое Кемерово

Как извлечь тексты после первого тега h1? ⇐ Html

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь тексты после первого тега h1?

Сообщение Anonymous » 21 янв 2025, 18:03

Я пытаюсь написать код, который будет получать и очищать текст со 100 веб-сайтов в день. Я столкнулся с проблемой на одном веб-сайте, который имеет более одного тега h1, и когда вы прокручиваете до следующего тега h1, URL-адрес на веб-сайте меняется, например, на этом веб-сайте.
у меня есть следующее: в основном это.

Код: Выделить всё

response=requests.get('https://economictimes.indiatimes.com/news/international/business/volkswagen-sets-5-7-revenue-growth-target-preaches-cost-discipline/articleshow/101168014.cms',headers={"User-Agent" : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"})
soup = BeautifulSoup(response.content, 'html.parser')
if len(soup.body.find_all('h1'))>2:    #to check if there is more than one tag
if i.endswith(".cms"):              #to check if the website has .cms ending (i have my doubts on this part)
for elem in soup.next_siblings:
if elem.name == 'h1':
GET THE TEXT SOME HOW

break

Как получить текст после первого тега h1? (обратите внимание, что текст находится в теге, а не в теге .

Подробнее здесь: https://stackoverflow.com/questions/765 ... rst-h1-tag

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Html»