Как извлечь текст из вложенных тегов в цикле BeautifulSoup? - Цифровое Кемерово

Как извлечь текст из вложенных тегов в цикле BeautifulSoup? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как извлечь текст из вложенных тегов в цикле BeautifulSoup?

Цитата

Сообщение Anonymous » 23 окт 2024, 15:39

Я пытаюсь очистить метаданные с https://yellowpages.com.eg/en/category/abrasives, используя Selenium и BeautifulSoup. Я могу успешно извлечь некоторые данные, но у меня возникли проблемы с получением текста из тега, вложенного в элемент div внутри цикла. Вот мой текущий код:
Вложенные теги — просмотрите этот SS

Код: Выделить всё


pagecount = 1
driver = webdriver.Chrome()
page_url = f"{base_url}/en/category/abrasives/p{pagecount}"
driver.get(page_url)
driver.implicitly_wait(10)
page_source = driver.page_source
time.sleep(1)
bs = BeautifulSoup(page_source, 'html.parser')
divs = bs.find_all('div', class_ = 'col-xs-12 item-details')
for div in divs:
img_tag = div.find('img')
if(img_tag):
img_src = img_tag['data-src']
print(img_src)
else:
# print("i provided no tag be off stupid")
pass
title = div.find('a', class_ = 'item-title').text.strip()
print(title)
address = div.find('a', class_ = 'address-text').find('span').text.strip()
print(address)
# description = div.find('div', class_ = 'item-aboutUs' )
descriptions = div.find_all('div', class_='item-aboutUs')
print(descriptions)

Проблема:
Я хочу убедиться, что я правильно извлекаю текст из тега a внутри элемента div item-aboutUs. Есть ли лучший способ справиться с этим, особенно если существует несколько элементов div item-aboutUs?

Подробнее здесь: https://stackoverflow.com/questions/791 ... lsoup-loop

1729687181

Anonymous

Я пытаюсь очистить метаданные с https://yellowpages.com.eg/en/category/abrasives, используя Selenium и BeautifulSoup. Я могу успешно извлечь некоторые данные, но у меня возникли проблемы с получением текста из тега, вложенного в элемент div внутри цикла. Вот мой текущий код:
Вложенные теги — просмотрите этот SS 
[code]

pagecount = 1
driver = webdriver.Chrome()
page_url = f"{base_url}/en/category/abrasives/p{pagecount}"
driver.get(page_url)
driver.implicitly_wait(10)
page_source = driver.page_source
time.sleep(1)
bs = BeautifulSoup(page_source, 'html.parser')
divs = bs.find_all('div', class_ = 'col-xs-12 item-details')
for div in divs:
img_tag = div.find('img')
if(img_tag):
img_src = img_tag['data-src']
print(img_src)
else:
# print("i provided no tag be off stupid")
pass
title = div.find('a', class_ = 'item-title').text.strip()
print(title)
address = div.find('a', class_ = 'address-text').find('span').text.strip()
print(address)
# description = div.find('div', class_ = 'item-aboutUs' )
descriptions = div.find_all('div', class_='item-aboutUs')
print(descriptions)
[/code]
Проблема:
Я хочу убедиться, что я правильно извлекаю текст из тега a внутри элемента div item-aboutUs. Есть ли лучший способ справиться с этим, особенно если существует несколько элементов div item-aboutUs? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79117927/how-to-extract-text-from-nested-tags-in-beautifulsoup-loop[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»

Programmiererforum