Избегайте перезаписи загруженных PDF-файлов с тем же именем файла, используя Selenium в PythonPython

Программы на Python
Ответить
Anonymous
 Избегайте перезаписи загруженных PDF-файлов с тем же именем файла, используя Selenium в Python

Сообщение Anonymous »

При загрузке URL-адресов PDF из файла Excel с использованием Selenium в Python возникает распространенная проблема, когда файлы с одинаковым именем перезаписываются во время процесса загрузки. Эта проблема возникает из-за того, что несколько PDF-файлов имеют одинаковые имена, что приводит к тому, что последний загруженный файл перезаписывает ранее загруженные. В результате в конце процесса загрузки остается только один файл с общим именем, а все остальные отбрасываются. Задача состоит в том, чтобы найти решение с использованием Selenium в Python, чтобы предотвратить перезапись загруженных PDF-файлов с одинаковыми именами файлов. В настоящее время код проходит через фрейм данных, загружает каждый URL-адрес PDF-файла и сохраняет его в назначенную папку назначения. Однако из-за общих имен файлов файлы перезаписывают друг друга, что приводит к потере данных.
Что я пробовал:
Я использование Selenium в Python для загрузки PDF-файлов из списка URL-адресов, хранящегося в файле Excel. Я настроил необходимые параметры для веб-драйвера Chrome и реализовал логику для загрузки PDF-файлов один за другим, просматривая DataFrame, содержащий URL-адреса и соответствующие имена файлов.
Ожидания:
Моя цель — изменить процесс загрузки, чтобы избежать перезаписи PDF-файлов с тем же именем. В настоящее время, когда несколько PDF-файлов имеют одно и то же имя, последний загруженный файл перезаписывает ранее загруженные, что приводит к потере данных. Вместо этого я ожидаю, что загруженные файлы будут сохраняться с уникальными именами, такими как имя файла.pdf, имя файла (1).pdf, имя файла (2).pdf и т. д. для каждой последующей загрузки, чтобы сохранить все файлы.< /p>
Импортированные пакеты и параметры:
Вот пакеты и параметры, которые я импортировал для своего сценария Selenium:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import Select
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
import time
import os
import warnings
import pyperclip
import Xlib.display
from pyvirtualdisplay.display import Display

options = Options()
options.add_argument("--ignore-certificate-errors")
options.add_argument("--headless")
options.add_argument('disable-infobars')
options.add_argument("--no-sandbox")
options.page_load_strategy = 'normal'
options.add_argument("--disable-cache")
options.add_argument("--disable-gpu")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('prefs', {'download.default_directory': file_path})


Подробнее здесь: https://stackoverflow.com/questions/767 ... -in-python
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»