Зачем проверять атрибут href дважды? - Цифровое Кемерово

Зачем проверять атрибут href дважды? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Зачем проверять атрибут href дважды?

Цитата

Сообщение Anonymous » 18 янв 2025, 10:49

Я нашел следующий код парсинга веб-страниц в книге Парсинг веб-страниц с помощью Python Райана Митчела:

Код: Выделить всё

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getLinks(pageUrl):
global pages
html = urlopen("http://en.wikipedia.org"+pageUrl)
bsObj = BeautifulSoup(html)
for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):
if 'href' in link.attrs:
if link.attrs['href'] not in pages:
#find new page
newPage = link.attrs['href']
print(newPage)
pages.add(newPage)
getLinks(newPage)
getLinks("")

Я считаю, что в цикле for findAll() все объекты тегов с атрибутами href, которые соответствуют критериям, уже были получены. Почему нам все равно нужно потом проверять, имеет ли объект атрибут href?
На мой взгляд, я считаю, что этот код строки следует удалить: если 'href' в link.attrs: Правильно ли я думаю?

Подробнее здесь: https://stackoverflow.com/questions/793 ... bute-twice

1737186553

Anonymous

Я нашел следующий код парсинга веб-страниц в книге Парсинг веб-страниц с помощью Python Райана Митчела:
[code]from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
pages = set()
def getLinks(pageUrl):
global pages
html = urlopen("http://en.wikipedia.org"+pageUrl)
bsObj = BeautifulSoup(html)
for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")):
if 'href' in link.attrs:
if link.attrs['href'] not in pages:
#find new page
newPage = link.attrs['href']
print(newPage)
pages.add(newPage)
getLinks(newPage)
getLinks("")
[/code]
Я считаю, что в цикле for findAll() все объекты тегов с атрибутами href, которые соответствуют критериям, уже были получены. Почему нам все равно нужно потом проверять, имеет ли объект атрибут href?
На мой взгляд, я считаю, что этот код строки следует удалить: если 'href' в link.attrs: Правильно ли я думаю? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79366742/why-validate-the-href-attribute-twice[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»