Правильное использование asyncio или многопроцессорности в Python

Правильное использование asyncio или многопроцессорности в Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Правильное использование asyncio или многопроцессорности в Python

Цитата

Сообщение Anonymous » 30 июн 2024, 11:41

Мне нужно преобразовать несколько файлов .xlsx в файлы PDF. Я использую Linux mint и написал скрипт, который правильно выполняет работу, если обработка выполняется последовательно. Однако это занимает много времени, и я хотел бы ускорить процесс, работая одновременно. Идея состоит в том, чтобы разделить список файлов, которые необходимо преобразовать, пополам и делать это одновременно и независимо. Это должно работать, поскольку файлы независимы друг от друга.
Я пробовал использовать для этой цели asyncio и обратился за помощью к ChatGPT, но не могу решить проблему, потому что случайно около 10 файлов (количество варьируется) из 100
просто не конвертируются в PDF.
Мне нужна ваша помощь, чтобы понять, что происходит.
Использован оригинальный сценарий следующий подход, и он работает медленно, но правильно:
def convert_pdf_soffice(xlsx_file: str)->None:
out_dir = './PdfDir/'
print('Started conversion of ', xlsx_file)
subprocess.run(['soffice', '--headless', '--convert-to', 'pdf', '--outdir', out_dir, xlsx_file])
print('Finished conversion of ', xlsx_file)

Я вызывал функцию преобразования в цикле, вот так:
for file in xls_files_to_be_converted:
convert_pdf_soffice(file)

Параллельный подход заключается в следующем:
#!/usr/local/bin/python3

import os
import asyncio
import time

async def convert_pdf_soffice(xlsx_files):
out_dir = './PdfDir/'
tasks = []

for xlsx_file in xlsx_files:
print('Started conversion of ', xlsx_file)
process = await asyncio.create_subprocess_exec(
'soffice', '--headless', '--convert-to', 'pdf', '--outdir', out_dir, xlsx_file,
stdout=asyncio.subprocess.PIPE, stderr=asyncio.subprocess.PIPE
)
tasks.append(process)

for task, xlsx_file in zip(tasks, xlsx_files):
stdout, stderr = await task.communicate()
if task.returncode != 0:
print(f'Conversion of {xlsx_file} failed with return code {task.returncode}')
else:
print('Finished conversion of ', xlsx_file)

async def main():
start_t = time.time()

INPUT_DIR = './XLSX/'
OUTPUT_DIR = './PdfDir/'

# Create folder if not exists
if not os.path.exists(OUTPUT_DIR):
os.makedirs(OUTPUT_DIR)

# List of all xlsx files
xlsx_file_list = [file for file in os.listdir(INPUT_DIR) if file.endswith('.xlsx')]

# Split the list into two halves
mid_index = len(xlsx_file_list) // 2
first_half = xlsx_file_list[:mid_index]
second_half = xlsx_file_list[mid_index:]

# List of xlsx files to be converted to pdf
first_half_paths = [os.path.join(INPUT_DIR, file) for file in first_half]
second_half_paths = [os.path.join(INPUT_DIR, file) for file in second_half]

# Run conversions concurrently for both halves
await asyncio.gather(
convert_pdf_soffice(first_half_paths),
convert_pdf_soffice(second_half_paths)
)

end_t = time.time()
duration_t = end_t - start_t
print(f'Duration is {duration_t}')

if __name__ == '__main__':
asyncio.run(main())

Подробнее здесь: https://stackoverflow.com/questions/786 ... -correctly

1719736919

Anonymous

Мне нужно преобразовать несколько файлов .xlsx в файлы PDF. Я использую Linux mint и написал скрипт, который правильно выполняет работу, если обработка выполняется последовательно. Однако это занимает много времени, и я хотел бы ускорить процесс, работая одновременно. Идея состоит в том, чтобы разделить список файлов, которые необходимо преобразовать, пополам и делать это одновременно и независимо. Это должно работать, поскольку файлы независимы друг от друга.
Я пробовал использовать для этой цели asyncio и обратился за помощью к ChatGPT, но не могу решить проблему, потому что случайно около 10 файлов (количество варьируется) из 100
просто не конвертируются в PDF.
Мне нужна ваша помощь, чтобы понять, что происходит.
Использован оригинальный сценарий следующий подход, и он работает медленно, но правильно:
def convert_pdf_soffice(xlsx_file: str)->None:
out_dir = './PdfDir/'
print('Started conversion of ', xlsx_file)
subprocess.run(['soffice', '--headless', '--convert-to', 'pdf', '--outdir', out_dir, xlsx_file])
print('Finished conversion of ', xlsx_file)

Я вызывал функцию преобразования в цикле, вот так:
  for file in xls_files_to_be_converted:
convert_pdf_soffice(file)

Параллельный подход заключается в следующем:
#!/usr/local/bin/python3

import os
import asyncio
import time

async def convert_pdf_soffice(xlsx_files):
out_dir = './PdfDir/'
tasks = []

for xlsx_file in xlsx_files:
print('Started conversion of ', xlsx_file)
process = await asyncio.create_subprocess_exec(
'soffice', '--headless', '--convert-to', 'pdf', '--outdir', out_dir, xlsx_file,
stdout=asyncio.subprocess.PIPE, stderr=asyncio.subprocess.PIPE
)
tasks.append(process)

for task, xlsx_file in zip(tasks, xlsx_files):
stdout, stderr = await task.communicate()
if task.returncode != 0:
print(f'Conversion of {xlsx_file} failed with return code {task.returncode}')
else:
print('Finished conversion of ', xlsx_file)

async def main():
start_t = time.time()

INPUT_DIR = './XLSX/'
OUTPUT_DIR = './PdfDir/'

# Create folder if not exists
if not os.path.exists(OUTPUT_DIR):
os.makedirs(OUTPUT_DIR)

# List of all xlsx files
xlsx_file_list = [file for file in os.listdir(INPUT_DIR) if file.endswith('.xlsx')]

# Split the list into two halves
mid_index = len(xlsx_file_list) // 2
first_half = xlsx_file_list[:mid_index]
second_half = xlsx_file_list[mid_index:]

# List of xlsx files to be converted to pdf
first_half_paths = [os.path.join(INPUT_DIR, file) for file in first_half]
second_half_paths = [os.path.join(INPUT_DIR, file) for file in second_half]

# Run conversions concurrently for both halves
await asyncio.gather(
convert_pdf_soffice(first_half_paths),
convert_pdf_soffice(second_half_paths)
)

end_t = time.time()
duration_t = end_t - start_t
print(f'Duration is {duration_t}')

if __name__ == '__main__':
asyncio.run(main())
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78687798/using-asyncio-or-multiprocessing-in-python-correctly[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Правильное использование asyncio или многопроцессорности в Python

Последнее сообщение Anonymous « 30 июн 2024, 15:09
Добавлено в форуме Python

Anonymous » 30 июн 2024, 15:09 » в форуме Python

Мне нужно преобразовать несколько файлов .xlsx в файлы PDF. Я использую Linux mint и написал скрипт, который правильно выполняет работу, если обработка выполняется последовательно. Однако это занимает много времени, и я хотел бы ускорить процесс,...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
30 июн 2024, 15:09
Asyncio Async Funcitons вешает с Asyncio.gather. (Код работает без Asyncio.gather)

Последнее сообщение Anonymous « 21 фев 2025, 13:14
Добавлено в форуме Python

Anonymous » 21 фев 2025, 13:14 » в форуме Python

Следующий код работает хорошо, если не помещал асинхронные функции в асинсио. Катер и пусть они запускают один за другим (с ожиданием). Но когда я добавляю их в асинсио. /> import asyncio

async def get_product_data(page):
print( Scraping product...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
21 фев 2025, 13:14
Использование многопроцессорности для параллельных прогнозов в PyTorch

Последнее сообщение Anonymous « 02 ноя 2023, 22:22
Добавлено в форуме Python

Anonymous » 02 ноя 2023, 22:22 » в форуме Python

Я пытаюсь выполнить вывод на большой регрессионной модели с гигабайтами данных для обработки. Я пытался распараллелить цикл прогнозирования, но он не работает должным образом. Это код, который я пытаюсь запустить

def Predict_batch(пакет):...

0 Ответы

43 Просмотры

Последнее сообщение Anonymous
02 ноя 2023, 22:22
Вызов модуля многопроцессорности Python из C/C++ приводит к бесконечному добавлению новых процессов

Последнее сообщение Anonymous « 23 ноя 2023, 18:44
Добавлено в форуме Python

Anonymous » 23 ноя 2023, 18:44 » в форуме Python

Я работаю над проектом с необычной структурой в системе Windows: c++ main() вызывает функцию многопроцессорности Python через C API. Фреймворк хорошо работает без многопроцессорности. После использования модуля Multiprocessing (даже всего 1...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
23 ноя 2023, 18:44
При использовании многопроцессорности в Python увеличение соотношения потребителей к производителям никогда не приводит

Последнее сообщение Гость « 07 мар 2024, 13:30
Добавлено в форуме Python

Гость » 07 мар 2024, 13:30 » в форуме Python

Here's what I am trying to do: the producers are generating a value (basically iterative hashing) that is then hash mapped to bins . The producer places each number into two bins. The consumers are each in charge of a set address range of the bins....

0 Ответы

25 Просмотры

Последнее сообщение Гость
07 мар 2024, 13:30

Вернуться в «Python»