Пытаюсь применить подход bs4 к странице википедии: результаты не сохраняются в df

Пытаюсь применить подход bs4 к странице википедии: результаты не сохраняются в df ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Пытаюсь применить подход bs4 к странице википедии: результаты не сохраняются в df

Цитата

Сообщение Anonymous » 24 июл 2024, 16:11

из-за того, что парсинг в Википедии является очень распространенным методом, при котором мы можем использовать подходящий подход для работы со многими различными заданиями, у меня возникли некоторые проблемы с возвратом результатов и сохранением их в df
ну — в качестве примера очень распространенного задания Wikipedia-bs4 — мы можем взять вот это:
на этой странице у нас более 600 результаты - на подстраницах:
url = "https://de.wikipedia.org/wiki/Liste_der ... eutschland"
поэтому, чтобы сделать первый экспериментальный сценарий, я следую вот так : сначала я скопирую таблицу со страницы Википедии, а затем преобразую ее в DataFrame Pandas.
поэтому я сначала устанавливаю необходимые пакеты: убедитесь, что у вас установлены запросы, beautifulsoup4 и pandas. Вы можете установить их с помощью pip, если еще этого не сделали:

Код: Выделить всё

pip install requests beautifulsoup4 pandas

а затем я делаю следующее: сначала я очищаю таблицу со страницы Википедии, а затем конвертирую ее в DataFrame Pandas.

Код: Выделить всё

import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL of the Wikipedia page
url = "https://de.wikipedia.org/wiki/Liste_der_Genossenschaftsbanken_in_Deutschland"

# Send a GET request to the URL
response = requests.get(url)

# Parse the HTML content of the page with BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Find the first table in the page
table = soup.find('table', {'class': 'wikitable'})

# Initialize an empty list to store the data
data = []

# Iterate over the rows of the table
for row in table.find_all('tr'):
# Get the columns in each row
cols = row.find_all('td')
# If there are columns in the row, get the text from each column and store it in the data list
if cols:
data.append([col.get_text(strip=True) for col in cols])

# Convert the data list to a Pandas DataFrame
df = pd.DataFrame(data, columns=["Bank Name", "Location", "Website"])

# Display the DataFrame
print(df)

# Optionally, save the DataFrame to a CSV file
df.to_csv('genossenschaftsbanken.csv', index=False)

посмотрите, что я получил:

Код: Выделить всё

3 s

# Display the DataFrame
print(df)

# Optionally, save the DataFrame to a CSV file
df.to_csv('genossenschaftsbanken.csv', index=False)

Bank Name                                           Location  \
0      BWGV  Baden-Württembergischer Genossenschaftsverband...
1       GVB                 Genossenschaftsverband Bayerne. V.
2        GV                                   Genoverbande. V.
3      GVWE              Genossenschaftsverband Weser-Emse. V.
4       FGV                Freier Genossenschaftsverband e. V.
5       PDG     PDG Genossenschaftlicher Prüfungsverband e. V.
6                              Verband der Sparda-Banken e. V.
7                                 Verband der PSD Banken e. V.

Website
0          Karlsruhe
1            München
2  Frankfurt am Main
3          Oldenburg
4         Düsseldorf
5             Erfurt
6  Frankfurt am Main
7               Bonn

ну, думаю, мне придется переписать конец скрипта...

Подробнее здесь: https://stackoverflow.com/questions/787 ... re-in-a-df

1721826687

Anonymous

из-за того, что парсинг в Википедии является очень распространенным методом, при котором мы можем использовать подходящий подход для работы со многими различными заданиями, у меня возникли некоторые проблемы с возвратом результатов и сохранением их в df 
ну — в качестве примера очень распространенного задания Wikipedia-bs4 — мы можем взять вот это:
на этой странице у нас более 600 результаты - на подстраницах:
url = "https://de.wikipedia.org/wiki/Liste_der_Genossenschaftsbanken_in_Deutschland"
поэтому, чтобы сделать первый экспериментальный сценарий, я следую вот так : сначала я скопирую таблицу со страницы Википедии, а затем преобразую ее в DataFrame Pandas.
поэтому я сначала устанавливаю необходимые пакеты: убедитесь, что у вас установлены запросы, beautifulsoup4 и pandas. Вы можете установить их с помощью pip, если еще этого не сделали:
[code]pip install requests beautifulsoup4 pandas
[/code]
а затем я делаю следующее: сначала я очищаю таблицу со страницы Википедии, а затем конвертирую ее в DataFrame Pandas.
[code]import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL of the Wikipedia page
url = "https://de.wikipedia.org/wiki/Liste_der_Genossenschaftsbanken_in_Deutschland"

# Send a GET request to the URL
response = requests.get(url)

# Parse the HTML content of the page with BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Find the first table in the page
table = soup.find('table', {'class': 'wikitable'})

# Initialize an empty list to store the data
data = []

# Iterate over the rows of the table
for row in table.find_all('tr'):
# Get the columns in each row
cols = row.find_all('td')
# If there are columns in the row, get the text from each column and store it in the data list
if cols:
data.append([col.get_text(strip=True) for col in cols])

# Convert the data list to a Pandas DataFrame
df = pd.DataFrame(data, columns=["Bank Name", "Location", "Website"])

# Display the DataFrame
print(df)

# Optionally, save the DataFrame to a CSV file
df.to_csv('genossenschaftsbanken.csv', index=False)
[/code]
посмотрите, что я получил:
[code]3 s

# Display the DataFrame
print(df)

# Optionally, save the DataFrame to a CSV file
df.to_csv('genossenschaftsbanken.csv', index=False)

Bank Name                                           Location  \
0      BWGV  Baden-Württembergischer Genossenschaftsverband...
1       GVB                 Genossenschaftsverband Bayerne. V.
2        GV                                   Genoverbande. V.
3      GVWE              Genossenschaftsverband Weser-Emse. V.
4       FGV                Freier Genossenschaftsverband e. V.
5       PDG     PDG Genossenschaftlicher Prüfungsverband e. V.
6                              Verband der Sparda-Banken e. V.
7                                 Verband der PSD Banken e. V.

Website
0          Karlsruhe
1            München
2  Frankfurt am Main
3          Oldenburg
4         Düsseldorf
5             Erfurt
6  Frankfurt am Main
7               Bonn
[/code]
ну, думаю, мне придется переписать конец скрипта... 

Подробнее здесь: [url]https://stackoverflow.com/questions/78788573/trying-to-apply-a-bs4-approach-to-wikipedia-page-results-do-not-store-in-a-df[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Bs4-подход к странице википедии: получение информационного окна

Последнее сообщение Anonymous « 28 июл 2024, 21:12
Добавлено в форуме Python

Anonymous » 28 июл 2024, 21:12 » в форуме Python

В настоящее время я пытаюсь применить подход bs4 к странице Википедии: результаты не сохраняются в df
из-за того, что очистка Википедии является очень распространенным методом - где мы можем использовать подходящий подход для работы со многими...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
28 июл 2024, 21:12
Парсер Python сайта Википедии: изучение BS4, Pandas, чтобы получить список данных со всех производных страниц

Последнее сообщение Anonymous « 13 май 2024, 20:28
Добавлено в форуме Python

Anonymous » 13 май 2024, 20:28 » в форуме Python

в настоящее время работаю над скриптом Python, который извлекает все данные с Wiki-страницы: контактные данные из следующего списка на основе Википедии
ну, я думаю, что подходящим методом может быть использование красивого супа и панд
короче: я...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
13 май 2024, 20:28
Сделанные снимки не сохраняются в папке, а создается другая папка, но изображения в ней не сохраняются.

Последнее сообщение Anonymous « 17 май 2024, 18:53
Добавлено в форуме Python

Anonymous » 17 май 2024, 18:53 » в форуме Python

Я пытаюсь создать детектор языка жестов, но когда я беру изображения для маркировки, создаются папки с изображениями, но изображения в них не сохраняются.
Images_path = 'Tensorflow/workspace/images/collectedimages'

for label in labels:
!mkdir...

0 Ответы

133 Просмотры

Последнее сообщение Anonymous
17 май 2024, 18:53
Получите более общую категорию из категории на странице Википедии.

Последнее сообщение Anonymous « 12 ноя 2024, 14:14
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 14:14 » в форуме Python

Я использую библиотеку Википедии Python, чтобы получить список категорий страницы . Я видел, что это оболочка MediaWiki API.
В любом случае мне интересно, как обобщить категории до категории Марко , например, эти основные классификации тем....

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 14:14
Пытаюсь выяснить логику этой страницы: хранится около ++ 100 результатов и анализируется с помощью Python и BS4.

Последнее сообщение Anonymous « 24 июл 2024, 17:15
Добавлено в форуме Python

Anonymous » 24 июл 2024, 17:15 » в форуме Python

пытаемся выяснить логику, лежащую в основе этой страницы:
мы сохранили некоторые результаты в следующей базе данных:
https:/...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 17:15

Вернуться в «Python»