Как правильно очищать веб-элементы с помощью beautifulsoup?CSS

Разбираемся в CSS
Ответить
Anonymous
 Как правильно очищать веб-элементы с помощью beautifulsoup?

Сообщение Anonymous »

Я не занимаюсь веб-скейпингом или веб-сайтами/html и новичком в этой области.Пробую очистить элементы по этой ссылке, которые содержат контейнеры/карточки.
Я попробовал приведенный ниже код и добился небольшого успеха, но не знаю, как это сделать правильно, чтобы получить только информативный контент без элементов html/css в результатах.

Код: Выделить всё

from bs4 import BeautifulSoup as bs
import requests

url = 'https://ihgfdelhifair.in/mis/Exhibitors'

page = requests.get(url)
soup = bs(page.text, 'html')
Что я хочу извлечь (на практике) из содержимого ниже:
[img]https://i.sstatic.net /QsmXDfgn.png[/img]

Код: Выделить всё

cards = soup.find_all('div', class_="row Exhibitor-Listing-box")
cards
ниже типа отображаемого контента:

Код: Выделить всё

[



[h4]  1 ARTIFACT DECOR (INDIA)[/b][/h4][b] 
Email :  artifactdecor01@gmail.com
Contact Person :                                                    SHEENU
State :  UTTAR PRADESH
City :  AGRA
Hall No. :  12
Stand No. :  G-15/43
Mobile No. :  +91-5624010111, +91-7055166000
Website :  www.artifactdecor.com
Source Retail :  Y
Vriksh Certified :  N

Теперь, когда я использую приведенный ниже код для извлечения элемента:

Код: Выделить всё

for element in cards:
title = element.find_all('h4')
email = element.find_all('p')
print(title)
print(email)
Вывод: Он предоставляет мне необходимую информацию, но с содержимым html/css, которое мне не нужно

Код: Выделить всё

[[h4]  1 ARTIFACT DECOR (INDIA)[/b][/h4], [h4][b]  10G HOUSE OF CRAFT[/b][/h4], [h4][b]  2 S COLLECTION[/b][/h4],   ........]
[
Email :  artifactdecor01@gmail.com
, 
Contact Person :         ..................]
Так как же я могу удалить из этого только элементы title, email, Contact Person, State, City без html/css в результатах?


Подробнее здесь: https://stackoverflow.com/questions/791 ... p-properly
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «CSS»