При загрузке URL-адресов PDF из файла Excel с использованием Selenium в Python возникает распространенная проблема, когда файлы с одинаковым именем перезаписываются во время процесса загрузки. Эта проблема возникает из-за того, что несколько PDF-файлов имеют одинаковые имена, что приводит к тому, что последний загруженный файл перезаписывает ранее загруженные. В результате в конце процесса загрузки остается только один файл с общим именем, а все остальные отбрасываются. Задача состоит в том, чтобы найти решение с использованием Selenium в Python, чтобы предотвратить перезапись загруженных PDF-файлов с одинаковыми именами файлов. В настоящее время код проходит через фрейм данных, загружает каждый URL-адрес PDF-файла и сохраняет его в назначенную папку назначения. Однако из-за общих имен файлов файлы перезаписывают друг друга, что приводит к потере данных.
Что я пробовал:
Я использование Selenium в Python для загрузки PDF-файлов из списка URL-адресов, хранящегося в файле Excel. Я настроил необходимые параметры для веб-драйвера Chrome и реализовал логику для загрузки PDF-файлов один за другим, просматривая DataFrame, содержащий URL-адреса и соответствующие имена файлов.
Ожидания:
Моя цель — изменить процесс загрузки, чтобы избежать перезаписи PDF-файлов с тем же именем. В настоящее время, когда несколько PDF-файлов имеют одно и то же имя, последний загруженный файл перезаписывает ранее загруженные, что приводит к потере данных. Вместо этого я ожидаю, что загруженные файлы будут сохраняться с уникальными именами, такими как имя файла.pdf, имя файла (1).pdf, имя файла (2).pdf и т. д. для каждой последующей загрузки, чтобы сохранить все файлы.< /p>
Импортированные пакеты и параметры:
Вот пакеты и параметры, которые я импортировал для своего сценария Selenium:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import Select
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
import time
import os
import warnings
import pyperclip
import Xlib.display
from pyvirtualdisplay.display import Display
options = Options()
options.add_argument("--ignore-certificate-errors")
options.add_argument("--headless")
options.add_argument('disable-infobars')
options.add_argument("--no-sandbox")
options.page_load_strategy = 'normal'
options.add_argument("--disable-cache")
options.add_argument("--disable-gpu")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('prefs', {'download.default_directory': file_path})
Подробнее здесь: https://stackoverflow.com/questions/767 ... -in-python
Избегайте перезаписи загруженных PDF-файлов с тем же именем файла, используя Selenium в Python ⇐ Python
Программы на Python
1732618976
Anonymous
При загрузке URL-адресов PDF из файла Excel с использованием Selenium в Python возникает распространенная проблема, когда файлы с одинаковым именем перезаписываются во время процесса загрузки. Эта проблема возникает из-за того, что несколько PDF-файлов имеют одинаковые имена, что приводит к тому, что последний загруженный файл перезаписывает ранее загруженные. В результате в конце процесса загрузки остается только один файл с общим именем, а все остальные отбрасываются. Задача состоит в том, чтобы найти решение с использованием Selenium в Python, чтобы предотвратить перезапись загруженных PDF-файлов с одинаковыми именами файлов. В настоящее время код проходит через фрейм данных, загружает каждый URL-адрес PDF-файла и сохраняет его в назначенную папку назначения. Однако из-за общих имен файлов файлы перезаписывают друг друга, что приводит к потере данных.
[b]Что я пробовал:[/b]
Я использование Selenium в Python для загрузки PDF-файлов из списка URL-адресов, хранящегося в файле Excel. Я настроил необходимые параметры для веб-драйвера Chrome и реализовал логику для загрузки PDF-файлов один за другим, просматривая DataFrame, содержащий URL-адреса и соответствующие имена файлов.
[b]Ожидания: [/b]
Моя цель — изменить процесс загрузки, чтобы избежать перезаписи PDF-файлов с тем же именем. В настоящее время, когда несколько PDF-файлов имеют одно и то же имя, последний загруженный файл перезаписывает ранее загруженные, что приводит к потере данных. Вместо этого я ожидаю, что загруженные файлы будут сохраняться с уникальными именами, такими как имя файла.pdf, имя файла (1).pdf, имя файла (2).pdf и т. д. для каждой последующей загрузки, чтобы сохранить все файлы.< /p>
[b]Импортированные пакеты и параметры:[/b]
Вот пакеты и параметры, которые я импортировал для своего сценария Selenium:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import Select
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
import time
import os
import warnings
import pyperclip
import Xlib.display
from pyvirtualdisplay.display import Display
options = Options()
options.add_argument("--ignore-certificate-errors")
options.add_argument("--headless")
options.add_argument('disable-infobars')
options.add_argument("--no-sandbox")
options.page_load_strategy = 'normal'
options.add_argument("--disable-cache")
options.add_argument("--disable-gpu")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('prefs', {'download.default_directory': file_path})
Подробнее здесь: [url]https://stackoverflow.com/questions/76727703/avoid-overwriting-downloaded-pdfs-with-same-filename-using-selenium-in-python[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия