Парсер Python сайта Википедии: изучение BS4, Pandas, чтобы получить список данных со всех производных страниц

Парсер Python сайта Википедии: изучение BS4, Pandas, чтобы получить список данных со всех производных страниц ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Парсер Python сайта Википедии: изучение BS4, Pandas, чтобы получить список данных со всех производных страниц

Цитата

Сообщение Anonymous » 13 май 2024, 20:28

в настоящее время работаю над скриптом Python, который извлекает все данные с Wiki-страницы: контактные данные из следующего списка на основе Википедии https://de.wikipedia.org/wiki/Liste_der ... eutschland
ну, я думаю, что подходящим методом может быть использование красивого супа и панд
короче: я думаю, лучше всего было бы создать Python парсер, работающий с вышеупомянутым сайтом Википедии: BS4, Pandas, чтобы получить список данных со всех производных страниц:
шаг 0: Чтобы извлеките все контактные данные со страницы Википедии со списком Genossenschaftsbanken. Думаю, я смогу использовать BeautifulSoup и Python. сначала мне нужно идентифицировать таблицу, содержащую контактную информацию, а затем я могу извлечь из нее данные.
Вот как я думаю, мне следует это сделать:
Во-первых: проверьте веб-страницу: я думаю, что вся важная информация о типичной странице Википедии у нас есть в этой небольшой задаче: - и для меня это может быть хорошим подходом - погрузиться в изучение python-scraper: вот мое начало: ( https://de.wikipedia.org/wiki/Liste_der ... eutschland ), и на этой странице мне сначала нужно проверить структуру HTML, чтобы найти таблицу, содержащую контактную информацию соответствующего банки:
Итак, начнем
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL of the Wikipedia page
url = "https://de.wikipedia.org/wiki/Liste_der ... eutschland"

# Send a GET request to the URL
response = requests.get(url)

# Parse the HTML content
soup = BeautifulSoup(response.content, "html.parser")

# Find the table containing the bank data
table = soup.find("table", {"class": "wikitable"})

# Initialize lists to store data
banks = []
contacts = []
websites = []

# Extract data from the table
for row in table.find_all("tr")[1:]:
cols = row.find_all("td")
# Bank name is in the first column
banks.append(cols[0].text.strip())
# Contact information is in the second column
contacts.append(cols[1].text.strip())
# Check if there's a link in the contact cell (for the website)
link = cols[1].find("a")
if link:
websites.append(link.get("href"))
else:
websites.append("")

# Create a DataFrame using pandas
bank_data = pd.DataFrame({"Bank": banks, "Contact": contacts, "Website": websites})

# Print the DataFrame
print(bank_data)

выход на данный момент.
Bank Contact \
0 BWGV Baden-Württembergischer Genossenschaftsverband...
1 GVB Genossenschaftsverband Bayern e. V.
2 GV Genoverband e. V.
3 GVWE Genossenschaftsverband Weser-Ems e. V.
4 GPVMV Genossenschaftlicher Prüfungsverband Mecklenbu...
5 PDG PDG Genossenschaftlicher Prüfungsverband e. V.
6 Verband der Sparda-Banken e. V.
7 Verband der PSD Banken e. V.

Website
0 /wiki/Baden-W%C3%BCrttembergischer_Genossensch...
1 /wiki/Genossenschaftsverband_Bayern
2 /wiki/Genoverband
3 /wiki/Genossenschaftsverband_Weser-Ems
4
5
6 /wiki/Sparda-Bank_(Deutschland)
7 /wiki/PSD_Bank

Подробнее здесь: https://stackoverflow.com/questions/784 ... fetch-a-li

1715621301

Anonymous

в настоящее время работаю над скриптом Python, который извлекает все данные с Wiki-страницы: контактные данные из следующего списка на основе Википедии https://de.wikipedia.org/wiki/Liste_der_Genossenschaftsbanken_in_Deutschland
ну, я думаю, что подходящим методом может быть использование [b]красивого супа и панд[/b]
короче: я думаю, лучше всего было бы создать Python парсер, работающий с вышеупомянутым сайтом Википедии: BS4, Pandas, чтобы получить список данных со всех производных страниц:
[b]шаг 0:[/b] Чтобы извлеките все контактные данные со страницы Википедии со списком Genossenschaftsbanken. Думаю, я смогу использовать BeautifulSoup и Python. сначала мне нужно идентифицировать таблицу, содержащую контактную информацию, а затем я могу извлечь из нее данные.
Вот как я думаю, мне следует это сделать:
[b]Во-первых[/b]: проверьте веб-страницу: я думаю, что вся важная информация о типичной странице Википедии у нас есть в этой небольшой задаче: - и для меня это может быть хорошим подходом - погрузиться в изучение python-scraper: вот мое начало: ( https://de.wikipedia.org/wiki/Liste_der_Genossenschaftsbanken_in_Deutschland ), и на этой странице мне сначала нужно проверить структуру HTML, чтобы найти таблицу, содержащую контактную информацию соответствующего банки:
Итак, начнем
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL of the Wikipedia page
url = "https://de.wikipedia.org/wiki/Liste_der_Genossenschaftsbanken_in_Deutschland"

# Send a GET request to the URL
response = requests.get(url)

# Parse the HTML content
soup = BeautifulSoup(response.content, "html.parser")

# Find the table containing the bank data
table = soup.find("table", {"class": "wikitable"})

# Initialize lists to store data
banks = []
contacts = []
websites = []

# Extract data from the table
for row in table.find_all("tr")[1:]:
cols = row.find_all("td")
# Bank name is in the first column
banks.append(cols[0].text.strip())
# Contact information is in the second column
contacts.append(cols[1].text.strip())
# Check if there's a link in the contact cell (for the website)
link = cols[1].find("a")
if link:
websites.append(link.get("href"))
else:
websites.append("")

# Create a DataFrame using pandas
bank_data = pd.DataFrame({"Bank": banks, "Contact": contacts, "Website": websites})

# Print the DataFrame
print(bank_data)

выход на данный момент.
    Bank                                            Contact  \
0   BWGV  Baden-Württembergischer Genossenschaftsverband...
1    GVB                Genossenschaftsverband Bayern e. V.
2     GV                                  Genoverband e. V.
3   GVWE             Genossenschaftsverband Weser-Ems e. V.
4  GPVMV  Genossenschaftlicher Prüfungsverband Mecklenbu...
5    PDG     PDG Genossenschaftlicher Prüfungsverband e. V.
6                           Verband der Sparda-Banken e. V.
7                              Verband der PSD Banken e. V.

Website
0  /wiki/Baden-W%C3%BCrttembergischer_Genossensch...
1                /wiki/Genossenschaftsverband_Bayern
2                                  /wiki/Genoverband
3             /wiki/Genossenschaftsverband_Weser-Ems
4
5
6                    /wiki/Sparda-Bank_(Deutschland)
7                                     /wiki/PSD_Bank
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78473889/python-scraper-of-a-wikipedia-site-learning-bs4-pandas-in-order-to-fetch-a-li[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Пытаюсь применить подход bs4 к странице википедии: результаты не сохраняются в df

Последнее сообщение Anonymous « 24 июл 2024, 16:11
Добавлено в форуме Python

Anonymous » 24 июл 2024, 16:11 » в форуме Python

из-за того, что парсинг в Википедии является очень распространенным методом, при котором мы можем использовать подходящий подход для работы со многими различными заданиями, у меня возникли некоторые проблемы с возвратом результатов и сохранением их...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 16:11
Bs4-подход к странице википедии: получение информационного окна

Последнее сообщение Anonymous « 28 июл 2024, 21:12
Добавлено в форуме Python

Anonymous » 28 июл 2024, 21:12 » в форуме Python

В настоящее время я пытаюсь применить подход bs4 к странице Википедии: результаты не сохраняются в df
из-за того, что очистка Википедии является очень распространенным методом - где мы можем использовать подходящий подход для работы со многими...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 21:12
Получение пустых фреймов данных после очистки веб-страниц из Википедии

Последнее сообщение Anonymous « 14 дек 2024, 17:07
Добавлено в форуме Python

Anonymous » 14 дек 2024, 17:07 » в форуме Python

Я пытаюсь извлечь данные со страницы Википедии и загрузить их в фрейм данных. После веб-скрапинга и запуска фрейма данных Python возвращает пустой фрейм данных, чего не должно быть. Вот мой фрагмент кода:
import pandas as pd
import requests
from bs4...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
14 дек 2024, 17:07
Получение пустых фреймов данных после очистки веб-страниц из Википедии

Последнее сообщение Anonymous « 14 дек 2024, 17:15
Добавлено в форуме Python

Anonymous » 14 дек 2024, 17:15 » в форуме Python

Я пытаюсь извлечь данные со страницы Википедии и загрузить их в фрейм данных. После веб-скрапинга и запуска фрейма данных Python возвращает пустой фрейм данных, чего не должно быть. Вот мой фрагмент кода:
import pandas as pd
import requests
from bs4...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
14 дек 2024, 17:15
Невозможно получить правильные данные таблицы очков Ла Лиги с веб-сайта ФК Барселона с помощью BS4.

Последнее сообщение Anonymous « 07 дек 2024, 23:04
Добавлено в форуме Python

Anonymous » 07 дек 2024, 23:04 » в форуме Python

Я пытаюсь извлечь данные таблицы очков с веб-сайта Я хочу извлечь данные текущей таблицы (24–25), но извлекаются данные таблицы за предыдущие годы (23–24).
Код:
from bs4 import BeautifulSoup
import requests

url = '
response = requests.get(url)...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 23:04

Вернуться в «Python»