в настоящее время работаю над скриптом Python, который извлекает все данные с Wiki-страницы: контактные данные из следующего списка на основе Википедии https://de.wikipedia.org/wiki/Liste_der ... eutschland
ну, я думаю, что подходящим методом может быть использование красивого супа и панд
короче: я думаю, лучше всего было бы создать Python парсер, работающий с вышеупомянутым сайтом Википедии: BS4, Pandas, чтобы получить список данных со всех производных страниц:
шаг 0: Чтобы извлеките все контактные данные со страницы Википедии со списком Genossenschaftsbanken. Думаю, я смогу использовать BeautifulSoup и Python. сначала мне нужно идентифицировать таблицу, содержащую контактную информацию, а затем я могу извлечь из нее данные.
Вот как я думаю, мне следует это сделать:
Во-первых: проверьте веб-страницу: я думаю, что вся важная информация о типичной странице Википедии у нас есть в этой небольшой задаче: - и для меня это может быть хорошим подходом - погрузиться в изучение python-scraper: вот мое начало: ( https://de.wikipedia.org/wiki/Liste_der ... eutschland ), и на этой странице мне сначала нужно проверить структуру HTML, чтобы найти таблицу, содержащую контактную информацию соответствующего банки:
Итак, начнем
import requests
from bs4 import BeautifulSoup
import pandas as pd
# URL of the Wikipedia page
url = "https://de.wikipedia.org/wiki/Liste_der ... eutschland"
# Send a GET request to the URL
response = requests.get(url)
# Parse the HTML content
soup = BeautifulSoup(response.content, "html.parser")
# Find the table containing the bank data
table = soup.find("table", {"class": "wikitable"})
# Initialize lists to store data
banks = []
contacts = []
websites = []
# Extract data from the table
for row in table.find_all("tr")[1:]:
cols = row.find_all("td")
# Bank name is in the first column
banks.append(cols[0].text.strip())
# Contact information is in the second column
contacts.append(cols[1].text.strip())
# Check if there's a link in the contact cell (for the website)
link = cols[1].find("a")
if link:
websites.append(link.get("href"))
else:
websites.append("")
# Create a DataFrame using pandas
bank_data = pd.DataFrame({"Bank": banks, "Contact": contacts, "Website": websites})
# Print the DataFrame
print(bank_data)
выход на данный момент.
Bank Contact \
0 BWGV Baden-Württembergischer Genossenschaftsverband...
1 GVB Genossenschaftsverband Bayern e. V.
2 GV Genoverband e. V.
3 GVWE Genossenschaftsverband Weser-Ems e. V.
4 GPVMV Genossenschaftlicher Prüfungsverband Mecklenbu...
5 PDG PDG Genossenschaftlicher Prüfungsverband e. V.
6 Verband der Sparda-Banken e. V.
7 Verband der PSD Banken e. V.
Website
0 /wiki/Baden-W%C3%BCrttembergischer_Genossensch...
1 /wiki/Genossenschaftsverband_Bayern
2 /wiki/Genoverband
3 /wiki/Genossenschaftsverband_Weser-Ems
4
5
6 /wiki/Sparda-Bank_(Deutschland)
7 /wiki/PSD_Bank
Подробнее здесь: https://stackoverflow.com/questions/784 ... fetch-a-li
Парсер Python сайта Википедии: изучение BS4, Pandas, чтобы получить список данных со всех производных страниц ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Пытаюсь применить подход bs4 к странице википедии: результаты не сохраняются в df
Anonymous » » в форуме Python - 0 Ответы
- 20 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Получение пустых фреймов данных после очистки веб-страниц из Википедии
Anonymous » » в форуме Python - 0 Ответы
- 8 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Получение пустых фреймов данных после очистки веб-страниц из Википедии
Anonymous » » в форуме Python - 0 Ответы
- 12 Просмотры
-
Последнее сообщение Anonymous
-