Очистка с помощью BS4 внезапно прекращается... извлекается только страница

Очистка с помощью BS4 внезапно прекращается... извлекается только страница ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Очистка с помощью BS4 внезапно прекращается... извлекается только страница

Цитата

Сообщение Anonymous » 13 ноя 2024, 02:33

Я хочу собрать данные из домов престарелых в Германии с этой обзорной страницы — другими словами, поместить их в таблицу Calc с помощью веб-скребка.
Я представляю себе парсер, который работает, например, с BeautifulSoup. - и, возможно, Панды. Я предпочитаю работать в Google Colab.
Для меня здесь важно следующее:
а. название объекта
б. адрес
c. сайт
d. адрес электронной почты, если он доступен
e. краткое описание — если его еще можно найти на странице.
Моя попытка — сделать это с помощью Pandas и сохранить во фрейме данных, чтобы данные записывались в файл. .
здесь ДАННЫЕ - или веб-сайт:
страница обзора: https://www.kliniken.de/suche/altenheim ... DEСтраница 2.: https://www.kliniken.de/suche/altenheim?seite=2
это продолжается и продолжается - до страницы 40
вот страница с подробностями - то есть страница результатов:
https://www.kliniken.de/altenheim/evang ... 5986P.html
см. мой подход:

Код: Выделить всё

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# Basis-URL für die Übersichtseiten
base_url = "https://www.kliniken.de/suche/altenheim?seite={page}&country=DE"
# Liste zur Speicherung der gesammelten Daten
data = []

# Funktion, um die Details einer Einrichtung zu scrapen
def scrape_detail_page(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Datenfelder initialisieren
name = address = website = email = description = None

# Beispiel: Name der Einrichtung (Header-Bereich der Seite)
name_tag = soup.find('h1', class_='page-title')
if name_tag:
name = name_tag.get_text(strip=True)

# Beispiel: Adresse (entweder spezifische Class suchen oder anhand von Strukturen)
address_tag = soup.find('div', class_='contact-address')
if address_tag:
address = address_tag.get_text(separator=', ', strip=True)

# Website und E-Mail (oft im Kontaktbereich)
contact_links = soup.find_all('a', href=True)
for link in contact_links:
href = link['href']
if 'mailto:' in href:
email = href.replace('mailto:', '').strip()
elif 'http' in href and not 'kliniken.de' in href:
website = href.strip()

# Kurzbeschreibung, falls vorhanden
description_tag = soup.find('div', class_='description')
if description_tag:
description = description_tag.get_text(strip=True)

return {
'Name': name,
'Adresse': address,
'Website': website,
'E-Mail': email,
'Kurzbeschreibung': description
}

# Scraper für die Überblicksseiten
for page in range(1, 41):  # Geht durch alle 40 Seiten
print(f"Scraping Übersichtseite {page}...")
response = requests.get(base_url.format(page=page))
soup = BeautifulSoup(response.text, 'html.parser')

# Finde alle Links zu den Detailseiten
detail_links = soup.find_all('a', class_='result-item-title', href=True)

for link in detail_links:
detail_url = "https://www.kliniken.de" + link['href']
print(f" - Scraping Detailseite: {detail_url}")

# Detailseite scrapen und Daten speichern
detail_data = scrape_detail_page(detail_url)
data.append(detail_data)

# Optional: Kurze Pause, um die Serverlast zu reduzieren
time.sleep(1)

# Daten in ein DataFrame speichern und als CSV exportieren
df = pd.DataFrame(data)
csv_file = 'altenheime_deutschland.csv'
df.to_csv(csv_file, index=False)

print(f"Daten wurden in {csv_file} gespeichert.")

результат:

Код: Выделить всё

Scraping Übersichtseite 1...
Scraping Übersichtseite 2...
Scraping Übersichtseite 3...
Scraping Übersichtseite 4...
Scraping Übersichtseite 5...
Scraping Übersichtseite 6...
Scraping Übersichtseite 7...
Scraping Übersichtseite 8...
Scraping Übersichtseite 9...
Scraping Übersichtseite 10...
Scraping Übersichtseite 11...
Scraping Übersichtseite 12...
Scraping Übersichtseite 13..

Ну, скрипт - на данный момент не извлекает страницы результатов - он только показывает процесс. - но не более того...

Подробнее здесь: https://stackoverflow.com/questions/791 ... y-the-page

1731454396

Anonymous

Я хочу собрать данные из домов престарелых в Германии с этой обзорной страницы — другими словами, поместить их в таблицу Calc с помощью веб-скребка.
Я представляю себе парсер, который работает, например, с BeautifulSoup. - и, возможно, Панды. Я предпочитаю работать в Google Colab.
Для меня здесь важно следующее:
а. название объекта
б. адрес
c. сайт
d. адрес электронной почты, если он доступен
e. краткое описание — если его еще можно найти на странице.
Моя попытка — сделать это с помощью Pandas и сохранить во фрейме данных, чтобы данные записывались в файл. .
здесь ДАННЫЕ - или веб-сайт:
страница обзора: https://www.kliniken.de/suche/altenheim?country=DEСтраница 2.: https://www.kliniken.de/suche/altenheim?seite=2
это продолжается и продолжается - до страницы 40
вот страница с подробностями - то есть страница результатов:
https://www.kliniken.de/altenheim/evangelisches-pflegeheim-paulushof-essen-25986P.html
см. мой [b]подход: [/b]
[code]import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# Basis-URL für die Übersichtseiten
base_url = "https://www.kliniken.de/suche/altenheim?seite={page}&country=DE"
# Liste zur Speicherung der gesammelten Daten
data = []

# Funktion, um die Details einer Einrichtung zu scrapen
def scrape_detail_page(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Datenfelder initialisieren
name = address = website = email = description = None

# Beispiel: Name der Einrichtung (Header-Bereich der Seite)
name_tag = soup.find('h1', class_='page-title')
if name_tag:
name = name_tag.get_text(strip=True)

# Beispiel: Adresse (entweder spezifische Class suchen oder anhand von Strukturen)
address_tag = soup.find('div', class_='contact-address')
if address_tag:
address = address_tag.get_text(separator=', ', strip=True)

# Website und E-Mail (oft im Kontaktbereich)
contact_links = soup.find_all('a', href=True)
for link in contact_links:
href = link['href']
if 'mailto:' in href:
email = href.replace('mailto:', '').strip()
elif 'http' in href and not 'kliniken.de' in href:
website = href.strip()

# Kurzbeschreibung, falls vorhanden
description_tag = soup.find('div', class_='description')
if description_tag:
description = description_tag.get_text(strip=True)

return {
'Name': name,
'Adresse': address,
'Website': website,
'E-Mail': email,
'Kurzbeschreibung': description
}

# Scraper für die Überblicksseiten
for page in range(1, 41):  # Geht durch alle 40 Seiten
print(f"Scraping Übersichtseite {page}...")
response = requests.get(base_url.format(page=page))
soup = BeautifulSoup(response.text, 'html.parser')

# Finde alle Links zu den Detailseiten
detail_links = soup.find_all('a', class_='result-item-title', href=True)

for link in detail_links:
detail_url = "https://www.kliniken.de" + link['href']
print(f" - Scraping Detailseite: {detail_url}")

# Detailseite scrapen und Daten speichern
detail_data = scrape_detail_page(detail_url)
data.append(detail_data)

# Optional: Kurze Pause, um die Serverlast zu reduzieren
time.sleep(1)

# Daten in ein DataFrame speichern und als CSV exportieren
df = pd.DataFrame(data)
csv_file = 'altenheime_deutschland.csv'
df.to_csv(csv_file, index=False)

print(f"Daten wurden in {csv_file} gespeichert.")
[/code]
[b]результат:[/b]
[code]Scraping Übersichtseite 1...
Scraping Übersichtseite 2...
Scraping Übersichtseite 3...
Scraping Übersichtseite 4...
Scraping Übersichtseite 5...
Scraping Übersichtseite 6...
Scraping Übersichtseite 7...
Scraping Übersichtseite 8...
Scraping Übersichtseite 9...
Scraping Übersichtseite 10...
Scraping Übersichtseite 11...
Scraping Übersichtseite 12...
Scraping Übersichtseite 13..
[/code]
Ну, скрипт - на данный момент не извлекает страницы результатов - он только показывает процесс. - но не более того... 

Подробнее здесь: [url]https://stackoverflow.com/questions/79183003/scraping-with-bs4-stops-suddenly-is-fetching-only-the-page[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Flutter just_audio внезапно прекращается в фоновом режиме примерно через 10 минут.

Последнее сообщение Anonymous « 03 окт 2023, 07:48
Добавлено в форуме Android

Anonymous » 03 окт 2023, 07:48 » в форуме Android

Я использую just_audio для своего приложения и сделал следующее:

В AndroidManifest и в моей lib,

AudioPlayer audioPlayer = AudioPlayer(); окончательный список воспроизведения = ConcatenatingAudioSource( useLazyPreparation: правда,...

0 Ответы

44 Просмотры

Последнее сообщение Anonymous
03 окт 2023, 07:48
Многопоточная запись TFRecord внезапно прекращается в блокноте Kaggle [закрыто]

Последнее сообщение Anonymous « 15 июл 2024, 00:11
Добавлено в форуме Python

Anonymous » 15 июл 2024, 00:11 » в форуме Python

Я обращаюсь за помощью по поводу многопоточности для записи TFRecord в блокнотах Kaggle. Я работаю над набором данных VGGFace2 и стремлюсь преобразовать пары изображений в TFRecords для наборов обучения, проверки и тестирования, но этот процесс...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 00:11
Pandas и очистка HTML-кода bs4

Последнее сообщение Anonymous « 02 окт 2024, 14:42
Добавлено в форуме Python

Anonymous » 02 окт 2024, 14:42 » в форуме Python

Я извлекаю данные из html-файла, они имеют формат таблицы, поэтому я создал эту строку кода для преобразования всех таблиц во фрейм данных с помощью pandas.
dfs = pd.read_html( synced_contacts.html )

Теперь печатаем вторую строку таблицы фрейма...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 14:42
Chromedriver внезапно замедлился (очистка с помощью Python, Selenium)

Последнее сообщение Anonymous « 13 май 2024, 20:39
Добавлено в форуме Python

Anonymous » 13 май 2024, 20:39 » в форуме Python

Имейте скрипт Python, запускающий парсеры с использованием селена и chromedriver.
Уже несколько лет парсинг одних и тех же сайтов без проблем. Начиная со вчерашнего вечера, те же сайты начали ОЧЕНЬ медленно загружаться при загрузке через...

0 Ответы

62 Просмотры

Последнее сообщение Anonymous
13 май 2024, 20:39
XAMPP: домашняя страница PHP показывает, что страница 404 не найдена, но домашняя страница HTML работает

Последнее сообщение Anonymous « 21 май 2024, 05:55
Добавлено в форуме Php

Anonymous » 21 май 2024, 05:55 » в форуме Php

Я попытался настроить сервер XAMPP для локального тестирования моего собственного веб-сайта WP на своей Windows 11. XAMPP был установлен правильно — я использую порт Apache по умолчанию 80, поскольку нет конфликтов с другими приложениями, и БД была...

0 Ответы

283 Просмотры

Последнее сообщение Anonymous
21 май 2024, 05:55

Вернуться в «Python»