Python-Scraper с BS4 и Selenium: проблемы сеанса с Chrome

Python-Scraper с BS4 и Selenium: проблемы сеанса с Chrome ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python-Scraper с BS4 и Selenium: проблемы сеанса с Chrome

Цитата

Сообщение Anonymous » 24 июл 2024, 18:11

Я пытаюсь получить список всех банков, которые расположены здесь, на этой странице
http://www.banken.de/inhalt/banken/fina ... tschland/1
примечание мы получили 617 результатов
мой подход: пойти и найти эти результаты – вкл. Сайт с использованием Python и Beautifulsoup из веб-драйвера импорта Selenium.

Код: Выделить всё

from bs4 import BeautifulSoup
import pandas as pd

# URL of the webpage
url = "http://www.banken.de/inhalt/banken/finanzdienstleister-banken-nach-laendern-deutschland/1"

# Start a Selenium WebDriver session (assuming Chrome here)
driver = webdriver.Chrome()  # Change this to the appropriate WebDriver if using a different browser

# Load the webpage
driver.get(url)

# Wait for the page to load (adjust the waiting time as needed)
driver.implicitly_wait(10)  # Wait for 10 seconds for elements to appear

# Get the page source after waiting
html = driver.page_source

# Parse the HTML content
soup = BeautifulSoup(html, "html.parser")

# Find the table containing the bank data
table = soup.find("table", {"class": "wikitable"})

# Initialize lists to store data
banks = []
headquarters = []

# Extract data from the table
for row in table.find_all("tr")[1:]:
cols = row.find_all("td")
banks.append(cols[0].text.strip())
headquarters.append(cols[1].text.strip())

# Create a DataFrame using pandas
bank_data = pd.DataFrame({"Bank": banks, "Headquarters": headquarters})

# Print the DataFrame
print(bank_data)

# Close the WebDriver session
driver.quit()

это возвращает (в моем плаще)

Код: Выделить всё

SessionNotCreatedException                Traceback (most recent call last)
 in ()
7
8 # Start a Selenium WebDriver session (assuming Chrome here)
----> 9 driver = webdriver.Chrome()  # Change this to the appropriate WebDriver if using a different browser
10
11 # Load the webpage

5 frames
/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/errorhandler.py in check_response(self, response)
227                 alert_text = value["alert"].get("text")
228             raise exception_class(message, screen, stacktrace, alert_text)  # type: ignore[call-arg]  # mypy is not smart enough here
--> 229         raise exception_class(message, screen, stacktrace)

SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally.
(session not created: DevToolsActivePort file doesn't exist)
(The process started from chrome location /root/.cache/selenium/chrome/linux64/124.0.6367.201/chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)
Stacktrace:
#0 0x5850d85e1e43 
#1 0x5850d82d04e7 
#2 0x5850d8304a66 
#3 0x5850d83009c0 
#4 0x5850d83497f0

Ну, я думаю, мне нужно быть осторожным - на Colab не каждый селен будет работать безупречно

Подробнее здесь: https://stackoverflow.com/questions/787 ... ith-chrome

1721833893

Anonymous

Я пытаюсь получить список всех банков, которые расположены здесь, на этой странице
http://www.banken.de/inhalt/banken/finanzdienstleister-banken-nach-laendern-deutschland/1
[b]примечание[/b] мы получили 617 результатов
мой подход: пойти и найти эти результаты – вкл. Сайт с использованием Python и Beautifulsoup из веб-драйвера импорта Selenium.
[code]from bs4 import BeautifulSoup
import pandas as pd

# URL of the webpage
url = "http://www.banken.de/inhalt/banken/finanzdienstleister-banken-nach-laendern-deutschland/1"

# Start a Selenium WebDriver session (assuming Chrome here)
driver = webdriver.Chrome()  # Change this to the appropriate WebDriver if using a different browser

# Load the webpage
driver.get(url)

# Wait for the page to load (adjust the waiting time as needed)
driver.implicitly_wait(10)  # Wait for 10 seconds for elements to appear

# Get the page source after waiting
html = driver.page_source

# Parse the HTML content
soup = BeautifulSoup(html, "html.parser")

# Find the table containing the bank data
table = soup.find("table", {"class": "wikitable"})

# Initialize lists to store data
banks = []
headquarters = []

# Extract data from the table
for row in table.find_all("tr")[1:]:
cols = row.find_all("td")
banks.append(cols[0].text.strip())
headquarters.append(cols[1].text.strip())

# Create a DataFrame using pandas
bank_data = pd.DataFrame({"Bank": banks, "Headquarters": headquarters})

# Print the DataFrame
print(bank_data)

# Close the WebDriver session
driver.quit()
[/code]
это возвращает (в моем плаще)
[code]SessionNotCreatedException                Traceback (most recent call last)
 in ()
7
8 # Start a Selenium WebDriver session (assuming Chrome here)
----> 9 driver = webdriver.Chrome()  # Change this to the appropriate WebDriver if using a different browser
10
11 # Load the webpage

5 frames
/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/errorhandler.py in check_response(self, response)
227                 alert_text = value["alert"].get("text")
228             raise exception_class(message, screen, stacktrace, alert_text)  # type: ignore[call-arg]  # mypy is not smart enough here
--> 229         raise exception_class(message, screen, stacktrace)

SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally.
(session not created: DevToolsActivePort file doesn't exist)
(The process started from chrome location /root/.cache/selenium/chrome/linux64/124.0.6367.201/chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)
Stacktrace:
#0 0x5850d85e1e43 
#1 0x5850d82d04e7 
#2 0x5850d8304a66 
#3 0x5850d83009c0 
#4 0x5850d83497f0 
[/code]
Ну, я думаю, мне нужно быть осторожным - на Colab не каждый селен будет работать безупречно 

Подробнее здесь: [url]https://stackoverflow.com/questions/78788425/python-scraper-with-bs4-and-selenium-session-issues-with-chrome[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Не могу запустить Selenium Web Scraper на виртуальной машине Ubuntu

Последнее сообщение Anonymous « 16 окт 2024, 15:45
Добавлено в форуме C#

Anonymous » 16 окт 2024, 15:45 » в форуме C#

var chromeOptions = new ChromeOptions();
ChromeOptions options = new ChromeOptions();
options.AddArgument( headless );
options.AddArgument( disable-gpu );
options.AddArgument( --no-sandbox );

ChromeDriver driver = new...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
16 окт 2024, 15:45
Получить идентификатор сеанса для текущего интерактивного пользователя из сеанса 0 на общем рабочем столе (т. е. сеанса

Последнее сообщение Anonymous « 27 дек 2024, 13:18
Добавлено в форуме C#

Anonymous » 27 дек 2024, 13:18 » в форуме C#

Я пытаюсь получить идентификатор сеанса текущего интерактивного пользователя. Но он должен работать в сценарии общего рабочего стола, например Citrix, при вызове из скрытого сеанса 0.
У меня есть несколько проблем.

В сценарии общего рабочего...

0 Ответы

69 Просмотры

Последнее сообщение Anonymous
27 дек 2024, 13:18
Получить идентификатор сеанса для текущего интерактивного пользователя из сеанса 0 на общем рабочем столе (т. е. сеанса

Последнее сообщение Anonymous « 27 дек 2024, 13:18
Добавлено в форуме C++

Anonymous » 27 дек 2024, 13:18 » в форуме C++

Я пытаюсь получить идентификатор сеанса текущего интерактивного пользователя. Но он должен работать в сценарии общего рабочего стола, например Citrix, при вызове из скрытого сеанса 0.
У меня есть несколько проблем.

В сценарии общего рабочего...

0 Ответы

64 Просмотры

Последнее сообщение Anonymous
27 дек 2024, 13:18
Ошибка драйвера Selenium Chrome java.lang.AbstractMethodError: класс приемника org.openqa.selenium.chrome.ChromeDriverSe

Последнее сообщение Anonymous « 09 дек 2024, 16:07
Добавлено в форуме JAVA

Anonymous » 09 дек 2024, 16:07 » в форуме JAVA

У меня не было проблем с запуском, прежде чем я что-то запутал.
Буду благодарен за любую помощь.
Я получаю эту ошибку драйвер Chrome при запуске любого тестового класса с драйвером Chrome.
Я пытался установить параметры драйвера Chrome, но все равно...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
09 дек 2024, 16:07
Chrome не может работать в Selenium Webdriver. Я использую Selenium 3.0.1 Chrome V-54.0

Последнее сообщение Anonymous « 04 авг 2025, 08:07
Добавлено в форуме JAVA

Anonymous » 04 авг 2025, 08:07 » в форуме JAVA

public class sikuli {

public static void main(String[] args) throws Exception {
//Screen screen=new Screen();
//screen.click( //home//exeter//Pictures//googlechrome.png );
System.setProperty( webdriver.chrome.driver ,...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
04 авг 2025, 08:07

Вернуться в «Python»