Как извлечь тексты после первого тега h1?Html

Программисты Html
Ответить
Anonymous
 Как извлечь тексты после первого тега h1?

Сообщение Anonymous »

Я пытаюсь написать код, который будет получать и очищать текст со 100 веб-сайтов в день. Я столкнулся с проблемой на одном веб-сайте, который имеет более одного тега h1, и когда вы прокручиваете до следующего тега h1, URL-адрес на веб-сайте меняется, например, на этом веб-сайте.
у меня есть следующее: в основном это.

Код: Выделить всё

response=requests.get('https://economictimes.indiatimes.com/news/international/business/volkswagen-sets-5-7-revenue-growth-target-preaches-cost-discipline/articleshow/101168014.cms',headers={"User-Agent" : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"})
soup = BeautifulSoup(response.content, 'html.parser')
if len(soup.body.find_all('h1'))>2:    #to check if there is more than one tag
if i.endswith(".cms"):              #to check if the website has .cms ending (i have my doubts on this part)
for elem in soup.next_siblings:
if elem.name == 'h1':
GET THE TEXT SOME HOW

break
Как получить текст после первого тега h1? (обратите внимание, что текст находится в теге, а не в теге .

Подробнее здесь: https://stackoverflow.com/questions/765 ... rst-h1-tag
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Html»