Python: не на каждой веб-странице есть определенный элемент

Python: не на каждой веб-странице есть определенный элемент ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python: не на каждой веб-странице есть определенный элемент

Цитата

Сообщение Anonymous » 21 дек 2025, 13:29

Когда я попытался использовать URL-адреса для парсинга веб-страниц, я обнаружил, что некоторые элементы существуют только на некоторых страницах, а другие нет. Возьмем для примера код

Код:

Код: Выделить всё

for urls in article_url_set:
re=requests.get(urls)
soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser")
title_tag = soup.select_one('.page_article_title')
if title_tag=True:
print(title_tag.text)
else:
#do something

если title_tag завершается, я хочу их напечатать, если нет, просто пропускаю их.

Другая вещь, мне нужно сохранить другие элементы и title.tag.text в данных.

Код: Выделить всё

   data={
"Title":title_tag.text,
"Registration":fruit_tag.text,
"Keywords":list2
}

Будет ошибка, поскольку не все статьи имеют заголовок. Что мне следует сделать, чтобы пропустить их при попытке сохранить? Объект «NoneType» не имеет атрибута «текст»

Изменить: я решил не пропускать их и оставить для них значение Null или None.

Подробнее здесь: https://stackoverflow.com/questions/467 ... in-element

1766312947

Anonymous

Когда я попытался использовать URL-адреса для парсинга веб-страниц, я обнаружил, что некоторые элементы существуют только на некоторых страницах, а другие нет. Возьмем для примера код

Код:

[code]for urls in article_url_set:
re=requests.get(urls)
soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser")
title_tag = soup.select_one('.page_article_title')
if title_tag=True:
print(title_tag.text)
else:
#do something
[/code]

если title_tag завершается, я хочу их напечатать, если нет, просто пропускаю их.

Другая вещь, мне нужно сохранить другие элементы и title.tag.text в данных.

[code]   data={
"Title":title_tag.text,
"Registration":fruit_tag.text,
"Keywords":list2
}
[/code]

Будет ошибка, поскольку не все статьи имеют заголовок. Что мне следует сделать, чтобы пропустить их при попытке сохранить? [b]Объект «NoneType» не имеет атрибута «текст»[/b]

Изменить: я решил не пропускать их и оставить для них значение Null или None.  

Подробнее здесь: [url]https://stackoverflow.com/questions/46783142/python-not-every-web-page-have-a-certain-element[/url]