Selenium не может очистить контент с динамического сайта

Selenium не может очистить контент с динамического сайта ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Selenium не может очистить контент с динамического сайта

Цитата

Сообщение Anonymous » 10 июн 2025, 03:41

Я пытаюсь очистить контактные данные по синим ссылкам по этому поводу. Я хочу сценарий: < /p>

Нажмите на ссылку № по системе воды (например, KS2000302), чтобы открыть детальную страницу < /li>
Извлечение информации из таблицы под названием Water System Contacts (например. Страницы системы водоснабжения используют один и тот же URL:
https://dww.kdhe.ks.gov/dww/jsp/watersystemdetail.jsp
, поэтому я не могу просто построить уникальные URL. Я попытался использовать селен для навигации и сбрасывания, но мой скрипт терпит неудачу с TimeoutException. < /P>
Вещи, которые я пробовал: < /p>

увидел открытый автоматический браузер, но он пришел и закрыт, не щелкнув все < /li>
Пробовал для Frames. "iframe"), но он вернулся 0 < /li>
< /ul>
Как я могу соскрести контактную информацию из систем водоснабжения округа, если все они используют один и тот же URL? Поле из каждой системы водоснабжения: < /p>
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv
import time

# --- set up Chrome ---
driver = webdriver.Chrome() # ← start without --headless while you test
driver.maximize_window()

url = ("https://dww.kdhe.ks.gov/DWW/JSP/WaterSystems.jsp?"
"PointOfContactType=none&RegulatingAgency=All&number=&name=&county=Anderson")
driver.get(url)

#

Switch into the frame that actually holds the table
# The KDHE pages use a frameset: banner | sidebar | content.
# The content frame is usually the third one.
WebDriverWait(driver, 10).until(EC.frame_to_be_available_and_switch_to_it(2))
# (If that fails, try 1 or By.NAME("content"))

#

Wait for the data table
table = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.XPATH, "//table[contains(@class,'Data')]"))
)

rows = driver.find_elements(By.XPATH, "//table[contains(@class,'Data')]/tbody/tr")[1:]

results = []

for i in range(len(rows)):
rows = driver.find_elements(By.XPATH, "//table[contains(@class,'Data')]/tbody/tr")[1:]
link = rows.find_element(By.TAG_NAME, "a")
ws_number = link.text.strip()
ws_name = rows.find_elements(By.TAG_NAME, "td")[1].text.strip()

print(f"\n {ws_name} ({ws_number}) …")
link.click()

# after clicking we’re still inside the same frame
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.XPATH, "//td[contains(text(),'Alternate State No.')]"))
)
alt_state_no = driver.find_element(
By.XPATH,
"//td[contains(text(),'Alternate State No.')]/following-sibling::td"
).text.strip()

print(f" → Alt State No.: {alt_state_no}")
results.append([ws_name, ws_number, alt_state_no])

driver.back()
time.sleep(1) # brief pause so the table reloads

# save CSV
with open("anderson_alternate_state_numbers.csv", "w", newline="") as f:
writer = csv.writer(f)
writer.writerow(["Water System Name", "System No.", "Alternate State No."])
writer.writerows(results)

print("\n Saved anderson_alternate_state_numbers.csv")
driver.quit()

Подробнее здесь: https://stackoverflow.com/questions/796 ... namic-site

1749516094

Anonymous

 Я пытаюсь очистить контактные данные по синим ссылкам по этому поводу. Я хочу сценарий: < /p>

 Нажмите на ссылку № по системе воды (например, KS2000302), чтобы открыть детальную страницу < /li>
 Извлечение информации из таблицы под названием Water System Contacts (например. Страницы системы водоснабжения используют один и тот же URL:
https://dww.kdhe.ks.gov/dww/jsp/watersystemdetail.jsp
, поэтому я не могу просто построить уникальные URL. Я попытался использовать селен для навигации и сбрасывания, но мой скрипт терпит неудачу с TimeoutException. < /P>
Вещи, которые я пробовал: < /p>

 увидел открытый автоматический браузер, но он пришел и закрыт, не щелкнув все < /li>
 Пробовал для Frames. "iframe"), но он вернулся 0 < /li>
< /ul>
Как я могу соскрести контактную информацию из систем водоснабжения округа, если все они используют один и тот же URL? Поле из каждой системы водоснабжения: < /p>
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv
import time

# --- set up Chrome ---
driver = webdriver.Chrome()              # ← start without --headless while you test
driver.maximize_window()

url = ("https://dww.kdhe.ks.gov/DWW/JSP/WaterSystems.jsp?"
"PointOfContactType=none&RegulatingAgency=All&number=&name=&county=Anderson")
driver.get(url)

# 1️⃣  Switch into the frame that actually holds the table
# The KDHE pages use a frameset: banner | sidebar | content.
# The content frame is usually the third one.
WebDriverWait(driver, 10).until(EC.frame_to_be_available_and_switch_to_it(2))
# (If that fails, try 1 or By.NAME("content"))

# 2️⃣  Wait for the data table
table = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.XPATH, "//table[contains(@class,'Data')]"))
)

rows = driver.find_elements(By.XPATH, "//table[contains(@class,'Data')]/tbody/tr")[1:]

results = []

for i in range(len(rows)):
rows = driver.find_elements(By.XPATH, "//table[contains(@class,'Data')]/tbody/tr")[1:]
link = rows[i].find_element(By.TAG_NAME, "a")
ws_number = link.text.strip()
ws_name = rows[i].find_elements(By.TAG_NAME, "td")[1].text.strip()

print(f"\n🔍 {ws_name} ({ws_number}) …")
link.click()

# after clicking we’re still inside the same frame
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.XPATH, "//td[contains(text(),'Alternate State No.')]"))
)
alt_state_no = driver.find_element(
By.XPATH,
"//td[contains(text(),'Alternate State No.')]/following-sibling::td"
).text.strip()

print(f"   → Alt State No.: {alt_state_no}")
results.append([ws_name, ws_number, alt_state_no])

driver.back()
time.sleep(1)          # brief pause so the table reloads

# save CSV
with open("anderson_alternate_state_numbers.csv", "w", newline="") as f:
writer = csv.writer(f)
writer.writerow(["Water System Name", "System No.", "Alternate State No."])
writer.writerows(results)

print("\n✅ Saved anderson_alternate_state_numbers.csv")
driver.quit()

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79659661/selenium-fails-to-scrape-content-from-dynamic-site[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Selenium не может очистить контент с динамического сайта

Последнее сообщение Anonymous « 10 июн 2025, 08:12
Добавлено в форуме Python

Anonymous » 10 июн 2025, 08:12 » в форуме Python

Я пытаюсь очистить контактные данные по синим ссылкам по этому поводу. Я хочу сценарий:

Нажмите на ссылку № по системе воды (например, KS2000302), чтобы открыть детальную страницу
Извлечение информации из таблицы под названием Water System...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
10 июн 2025, 08:12
Как очистить отфильтрованный контент с веб-сайта

Последнее сообщение Anonymous « 23 май 2024, 15:41
Добавлено в форуме Python

Anonymous » 23 май 2024, 15:41 » в форуме Python

Я хочу отфильтровать категорию Innovfest x Elevating Founders (Startup/Scaleup) и получить все имена экспонентов и номера стендов отсюда:
Однако, когда я запускаю сборщик, вместо этого он очищает всех участников (без фильтрации).
# Configure...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
23 май 2024, 15:41
Как извлечь контент или очистить наборы данных с исходной страницы веб-сайта

Последнее сообщение Anonymous « 29 июн 2024, 09:40
Добавлено в форуме Php

Anonymous » 29 июн 2024, 09:40 » в форуме Php

Я хотел бы знать, как очистить содержимое исходного кода с веб-сайта с помощью PHP. Я пробовал использовать а также посмотрел, как вы анализируете и обрабатываете HTML/XML в PHP? Мне все еще трудно получить информацию из исходного кода. Как видите,...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 09:40
Selenium.webdriver.Firefox загрузил и отобразил контент, но страница все еще загружает фоновый контент

Последнее сообщение Anonymous « 13 июл 2024, 14:57
Добавлено в форуме Python

Anonymous » 13 июл 2024, 14:57 » в форуме Python

Я использую Selenium для переименования и сортировки носителя в папке на основе заголовка страницы, но страница по-прежнему загружает контент в фоновом режиме, и заголовок страницы меняется после того, как Firefox завершил загрузку и отображение...

0 Ответы

54 Просмотры

Последнее сообщение Anonymous
13 июл 2024, 14:57
Получите информацию с сайта, используя Selenium, без симулятора веб -сайта [закрыто]

Последнее сообщение Anonymous « 03 авг 2025, 18:09
Добавлено в форуме Python

Anonymous » 03 авг 2025, 18:09 » в форуме Python

В настоящее время я изучаю селен, и мне интересно, есть ли способ использовать селен для получения информации. Например, текст некоторых параграфов без всего симулятора веб -сайта?

Подробнее здесь:

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
03 авг 2025, 18:09

Вернуться в «Python»