Очистка селена продолжает возвращать ValueError: недопустимый литерал для int() с базой 10: ''

Очистка селена продолжает возвращать ValueError: недопустимый литерал для int() с базой 10: '' ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Очистка селена продолжает возвращать ValueError: недопустимый литерал для int() с базой 10: ''

Цитата

Сообщение Гость » 11 мар 2024, 21:49

При попытке парсинга веб-сайта они не могут найти текст в моей переменной индексирования страниц. Функция len() для нумерации страниц показывает правильное число, поэтому я знаю, что она нашла нужный мне элемент. Только не текст в нем. Если кто-то сможет мне помочь, я буду признателен.

Код: Выделить всё

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.chrome.options import Options # ALLOWS PROGRAM TO RUN W/O WINDOW OPENING
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import pandas as pd
import time
# THESE TURN ON HEADLESS MODE
options = Options()
options.add_argument("--headless=new")
options.add_argument("window-size=1920x1080")

# THESE ACCESS THE WEBSITE AND PULL DATA
web = "https://www.audible.com/adblbestsellers?page=1&ref_pageloadid=vungFE9JcaT4XEUq&ref=a_adblbests_c5_pageNum_0&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r=CTE7EBFZPGVW9C9MJYWQ&pageLoadId=ViHKKYBoSP03JQKv&creativeId=0bf0e03f-bb55-481b-b4fd-d67375977170"
driver = webdriver.Chrome(options= options)
driver.get(web)
# driver.maximize_window()

# PAGINATION
pagination = WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH,'.//ul[contains(@class, "pagingElements")]')))
# pagination = driver.find_element(By.XPATH,'.//ul[contains(@class, "pagingElements")]')
pages = WebDriverWait(pagination, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'a.pageNumberElement')))
#pages = pagination.find_elements(By.XPATH,'.//ul[contains(@class,"pagingElements")]/li')
last_page = int(pages[1].text)

current_page = 1

while current_page \n[/i]\n \n\n  \nGo back a page\n  \n      [/url]\n    \n  \n\n  \n\n  \n\n  \n\n\n' text='Go back a page'
Page 2 HTML='[*]\n    \n \n\n  \n1\n' text='1'
Page 3 HTML='[*]\n    [url=/adblbestsellers?page=2&ref_pageloadid=0IuRVXnX3DGs76JX&ref=a_adblbests_c5_pageNum_1&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r=RGEY6R11PSFH96HYBZZ1&pageLoadId=7wau2qFrQbdrOLQh&creativeId=0bf0e03f-bb55-481b-b4fd-d67375977170]2[/url]\n' text='2'
Page 4 HTML='[*]\n    \n \n\n  \n...\n' text=''
Page 5 HTML='[*]\n    [url=/adblbestsellers?page=5&ref_pageloadid=0IuRVXnX3DGs76JX&ref=a_adblbests_c5_pageNum_3&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r=RGEY6R11PS FH96HYBZZ1&pageLoadId=7wau2qFrQbdrOLQh&creativeId=0bf0e03f-bb55-481b-b4fd-d67375977170]5[/url]\n' text=''
Стр. 6 HTML='[*]\n \n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n\n\n \n \n \n \n \n \n \n\n\n \n \n \n \n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n \n [url=/adblbestsellers?page=2&ref_pageloadid=0IuRVXnX3DGs76JX&ref=a_adblbests_c5_pageNext&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r =RGEY6R11PSFH96HYBZZ1&pageLoadId=7wau2qFrQbdrOLQh&creativeId=0bf0e03f- bb55-481b-b4fd-d67375977170]\n \ n \n \n\n\n\n\n\n\n\n\n\n\n\n\n\t\n\t\n\t\n\t\n\n\n\ n\n\n\n\n\n[i]\n[/i]\n \n\n \nПерейти на страницу вперед\n \n [/url]\n \n \n\n \n\n \n\n \n\ n\n' text=''
Последняя страница: 1
'''
Я пытаюсь извлечь цифру "5", которая находится на HTML-странице 5

Источник: https://stackoverflow.com/questions/781 ... t-with-bas

1710182986

Гость


При попытке парсинга веб-сайта они не могут найти текст в моей переменной индексирования страниц. Функция len() для нумерации страниц показывает правильное число, поэтому я знаю, что она нашла нужный мне элемент. Только не текст в нем. Если кто-то сможет мне помочь, я буду признателен.
[code]from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.chrome.options import Options # ALLOWS PROGRAM TO RUN W/O WINDOW OPENING
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import pandas as pd
import time
# THESE TURN ON HEADLESS MODE
options = Options()
options.add_argument("--headless=new")
options.add_argument("window-size=1920x1080")

# THESE ACCESS THE WEBSITE AND PULL DATA
web = "https://www.audible.com/adblbestsellers?page=1&ref_pageloadid=vungFE9JcaT4XEUq&ref=a_adblbests_c5_pageNum_0&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r=CTE7EBFZPGVW9C9MJYWQ&pageLoadId=ViHKKYBoSP03JQKv&creativeId=0bf0e03f-bb55-481b-b4fd-d67375977170"
driver = webdriver.Chrome(options= options)
driver.get(web)
# driver.maximize_window()

# PAGINATION
pagination = WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH,'.//ul[contains(@class, "pagingElements")]')))
# pagination = driver.find_element(By.XPATH,'.//ul[contains(@class, "pagingElements")]')
pages = WebDriverWait(pagination, 20).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'a.pageNumberElement')))
#pages = pagination.find_elements(By.XPATH,'.//ul[contains(@class,"pagingElements")]/li')
last_page = int(pages[1].text)

current_page = 1

while current_page \n[/i]\n \n\n  \nGo back a page\n  \n      [/url]\n    \n  \n\n  \n\n  \n\n  \n\n\n' text='Go back a page'
Page 2 HTML='[*]\n    \n \n\n  \n1\n' text='1'
Page 3 HTML='[*]\n    [url=/adblbestsellers?page=2&ref_pageloadid=0IuRVXnX3DGs76JX&ref=a_adblbests_c5_pageNum_1&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r=RGEY6R11PSFH96HYBZZ1&pageLoadId=7wau2qFrQbdrOLQh&creativeId=0bf0e03f-bb55-481b-b4fd-d67375977170]2[/url]\n' text='2'
Page 4 HTML='[*]\n    \n \n\n  \n...\n' text=''
Page 5 HTML='[*]\n    [url=/adblbestsellers?page=5&ref_pageloadid=0IuRVXnX3DGs76JX&ref=a_adblbests_c5_pageNum_3&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r=RGEY6R11PS FH96HYBZZ1&pageLoadId=7wau2qFrQbdrOLQh&creativeId=0bf0e03f-bb55-481b-b4fd-d67375977170]5[/url]\n' text=''
Стр. 6 HTML='[*]\n \n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n\n\n \n \n \n \n \n \n \n\n\n \n \n \n \n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n \n \n \n [url=/adblbestsellers?page=2&ref_pageloadid=0IuRVXnX3DGs76JX&ref=a_adblbests_c5_pageNext&pf_rd_p=3c1c017b-585f-4bde-98c6-e3cb784e4b8e&pf_rd_r =RGEY6R11PSFH96HYBZZ1&pageLoadId=7wau2qFrQbdrOLQh&creativeId=0bf0e03f- bb55-481b-b4fd-d67375977170]\n \ n \n \n\n\n\n\n\n\n\n\n\n\n\n\n\t\n\t\n\t\n\t\n\n\n\ n\n\n\n\n\n[i]\n[/i]\n \n\n \nПерейти на страницу вперед\n \n [/url]\n \n \n\n \n\n \n\n \n\ n\n' text=''
Последняя страница: 1
'''
Я пытаюсь извлечь цифру "5", которая находится на HTML-странице 5
[/code] 

Источник: [url]https://stackoverflow.com/questions/78142505/selenium-scraping-keeps-returning-valueerror-invalid-literal-for-int-with-bas[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как исправить ValueError: недопустимый литерал для int() с базой 10: «<_io.TextIOWrapper name='3x+1.txt' mode='r'coding=

Последнее сообщение Гость « 24 сен 2023, 11:14
Добавлено в форуме Python

Гость » 24 сен 2023, 11:14 » в форуме Python

у меня есть ValueError: недопустимый литерал для int() с базой 10: «» на Vsc строка x = int(f.read())

Я пробовал разные методы чтения файла, я пытаюсь получить число из файла, чтобы его можно было использовать в математическом уравнении.

0 Ответы

25 Просмотры

Последнее сообщение Гость
24 сен 2023, 11:14
Как преобразовать список[int, int, int] в кортеж[int, int, int], а не в кортеж[int, ...]

Последнее сообщение Anonymous « 27 апр 2024, 23:47
Добавлено в форуме Python

Anonymous » 27 апр 2024, 23:47 » в форуме Python

Предположим, у меня есть две функции: func1 и func2. func1 возвращает список из 3 целых чисел, а func2 принимает кортеж из 3 целых чисел. Как мне преобразовать список в кортеж таким образом, чтобы можно было предотвратить ошибки с помощью средств...

0 Ответы

289 Просмотры

Последнее сообщение Anonymous
27 апр 2024, 23:47
Получение ValueError: недопустимый литерал для int()

Последнее сообщение Anonymous « 18 май 2024, 19:36
Добавлено в форуме Python

Anonymous » 18 май 2024, 19:36 » в форуме Python

Я получаю ошибку ниже. Я передаю образец входных данных в модель регрессора для прогнозирования, но получаю ошибку. Я пробовал разные способы это исправить, но это не работает. Спасибо за помощь.
#'time' column to Unix timestamp
df =...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
18 май 2024, 19:36
ValueError: недопустимый литерал для int() с основанием 10: 's' при декодировании

Последнее сообщение Anonymous « 28 сен 2024, 02:01
Добавлено в форуме Python

Anonymous » 28 сен 2024, 02:01 » в форуме Python

У меня есть часть кода большого фрагмента, пытающегося предсказать классы, и эта часть:
tokenizer_ = RobertaTokenizer.from_pretrained( codeT5-base )
for epoch in range(model_params ):
model.eval()
with torch.no_grad(): # or...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
28 сен 2024, 02:01
Возникла ошибка при использовании Pandas `read_html`: «ValueError: неверный литерал для int() с базой 10: '40%'»

Последнее сообщение Anonymous « 17 янв 2025, 04:17
Добавлено в форуме Html

Anonymous » 17 янв 2025, 04:17 » в форуме Html

Я успешно использовал pd.read_html для большинства сканируемых веб-страниц, но ниже выдает указанную ошибку:
'
Когда я проверяю источник веб-страницы, Я вижу ошибочное назначение rowspan:

Rule 10b5-1(c) Transaction Indication

Веб-страница...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
17 янв 2025, 04:17

Вернуться в «Python»