Как оптимизировать скрипт Python для эффективной обработки больших файлов CSV? - Цифровое Кемерово

Как оптимизировать скрипт Python для эффективной обработки больших файлов CSV? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как оптимизировать скрипт Python для эффективной обработки больших файлов CSV?

Цитата

Сообщение Anonymous » 16 дек 2024, 13:10

Я работаю над проектом Python, который включает обработку больших файлов CSV (размером 2–5 ГБ). Сценарий читает файл CSV, выполняет преобразование данных и записывает выходные данные в новый файл. Однако он работает очень медленно и потребляет много памяти.
Вот текущий подход, который я использую:

Код: Выделить всё

import csv

with open('large_file.csv', 'r') as infile, open('output_file.csv', 'w', newline='') as outfile:
reader = csv.reader(infile)
writer = csv.writer(outfile)
for row in reader:
# Perform some transformation (e.g., clean data, filter rows)
if int(row[2]) > 1000:  # Example filter condition
writer.writerow(row)

Проблемы:
Выполнение сценария занимает несколько часов.
Он потребляет много памяти, что иногда приводит к сбоям на моем компьютере. с 8 ГБ ОЗУ.
Чтение файла частями с помощью панд:

Код: Выделить всё

import pandas as pd

chunks = pd.read_csv('large_file.csv', chunksize=10000)
for chunk in chunks:
# Transformation logic here

Это улучшило использование памяти, но не оказало существенного влияния на скорость.
Экспериментировал с csv.DictReader для более читаемых преобразований, но производительность была такой же.
Мой вопрос: как оптимизировать этот сценарий для более эффективной обработки CSV-файла с точки зрения скорости и использования памяти? Существуют ли библиотеки или методы Python, специально разработанные для обработки таких больших наборов данных?

Подробнее здесь: https://stackoverflow.com/questions/792 ... fficiently

1734343843

Anonymous

Я работаю над проектом Python, который включает обработку больших файлов CSV (размером 2–5 ГБ). Сценарий читает файл CSV, выполняет преобразование данных и записывает выходные данные в новый файл. Однако он работает очень медленно и потребляет много памяти.
Вот текущий подход, который я использую:
[code]import csv

with open('large_file.csv', 'r') as infile, open('output_file.csv', 'w', newline='') as outfile:
reader = csv.reader(infile)
writer = csv.writer(outfile)
for row in reader:
# Perform some transformation (e.g., clean data, filter rows)
if int(row[2]) > 1000:  # Example filter condition
writer.writerow(row)

[/code]
Проблемы:
Выполнение сценария занимает несколько часов.
Он потребляет много памяти, что иногда приводит к сбоям на моем компьютере. с 8 ГБ ОЗУ.
Чтение файла частями с помощью панд:
[code]import pandas as pd

chunks = pd.read_csv('large_file.csv', chunksize=10000)
for chunk in chunks:
# Transformation logic here

[/code]
Это улучшило использование памяти, но не оказало существенного влияния на скорость.
Экспериментировал с csv.DictReader для более читаемых преобразований, но производительность была такой же.
Мой вопрос: как оптимизировать этот сценарий для более эффективной обработки CSV-файла с точки зрения скорости и использования памяти? Существуют ли библиотеки или методы Python, специально разработанные для обработки таких больших наборов данных? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79284237/how-can-i-optimize-a-python-script-to-process-large-csv-files-efficiently[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»