Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas). ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Цитата

Сообщение Anonymous » 03 янв 2025, 13:20

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.

Код: Выделить всё

month | value | observation |
-----------------------------
2024-01 | 12 | High

2024-01 | 5 | Low

Лямбда-функция, написанная на Python, использует pandas для обновления этих данных — вставки новых строк, обновления существующих строк, удаления строк и т. д.
Каждый день, когда получены новые цены для данного объекта, существующий код считывает файл пера для этого объекта в память (с помощью pandas) и объединяет входящие новые данные, а затем записывает обновленный файл пера из памяти обратно в S3. На данный момент это работает нормально, но по мере роста размера этих файлов перьев в некоторых случаях мы видим исключения «недостаточно памяти», когда лямбда пытается загрузить большой файл перьев в память во время операций слияния. Это тот случай, когда я выделил лямбде 10 ГБ (макс.) памяти.
Все поддерживаемые операции — слияние, обновление, удаление выполняются в памяти после полной загрузки файлов в памяти.
Есть ли лучший способ или другая библиотека, которая может помочь мне выполнять эти слияния/другие операции, не загружая все в память? Я проверяю DuckDB и вижу, что она поддерживает понижение уровня предиката до уровня хранилища, но не поддерживает файлы перьев изначально.
Ищу другие идеи для решения этой проблемы.
Спасибо
Обновление
Мы делаем разделение дат по годам в файлах перьев. Это замедляет операцию слияния, поскольку мне приходится обращаться к нескольким разделам, если входящие данные (в данном случае загрузка вручную) содержат точки данных за разные годы.
Кроме того, когда пользователь может запросить данные за несколько лет... например, запрос может сказать -> дайте мне все данные с «высоким» наблюдением, мне все равно нужно посетить несколько разделов, что может замедлить работу.

Подробнее здесь: https://stackoverflow.com/questions/793 ... ing-python

1735899657

Anonymous

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.
[code]month | value | observation |
-----------------------------
2024-01 | 12 | High

2024-01 | 5 | Low
[/code]
Лямбда-функция, написанная на Python, использует pandas для обновления этих данных — вставки новых строк, обновления существующих строк, удаления строк и т. д.
Каждый день, когда получены новые цены для данного объекта, существующий код считывает файл пера для этого объекта в память (с помощью pandas) и объединяет входящие новые данные, а затем записывает обновленный файл пера из памяти обратно в S3. На данный момент это работает нормально, но по мере роста размера этих файлов перьев в некоторых случаях мы видим исключения «недостаточно памяти», когда лямбда пытается загрузить большой файл перьев в память во время операций слияния. Это тот случай, когда я выделил лямбде 10 ГБ (макс.) памяти.
Все поддерживаемые операции — слияние, обновление, удаление выполняются в памяти после полной загрузки файлов в памяти.
Есть ли лучший способ или другая библиотека, которая может помочь мне выполнять эти слияния/другие операции, не загружая все в память? Я проверяю DuckDB и вижу, что она поддерживает понижение уровня предиката до уровня хранилища, но не поддерживает файлы перьев изначально.
Ищу другие идеи для решения этой проблемы.
Спасибо
Обновление
Мы делаем разделение дат по годам в файлах перьев. Это замедляет операцию слияния, поскольку мне приходится обращаться к нескольким разделам, если входящие данные (в данном случае загрузка вручную) содержат точки данных за разные годы.
Кроме того, когда пользователь может запросить данные за несколько лет... например, запрос может сказать -> дайте мне все данные с «высоким» наблюдением, мне все равно нужно посетить несколько разделов, что может замедлить работу. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79326029/optimize-the-process-of-handling-larger-than-memory-feather-files-using-python[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Последнее сообщение Anonymous « 03 янв 2025, 12:35
Добавлено в форуме Python

Anonymous » 03 янв 2025, 12:35 » в форуме Python

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.
month | value | observation |
-----------------------------
2024-01 | 12 |...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
03 янв 2025, 12:35
Оптимизируйте процесс обработки файлов, размер которых превышает объем памяти, с помощью Python (Pandas).

Последнее сообщение Anonymous « 06 янв 2025, 20:43
Добавлено в форуме Python

Anonymous » 06 янв 2025, 20:43 » в форуме Python

Я храню цены на акции для разных организаций в виде отдельных файлов перьев в корзине S3. На высоком уровне содержимое любого файла перьев выглядит так, как показано ниже.
month | value | observation |
-----------------------------
2024-01 | 12 |...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 20:43
Оптимизируйте код PySpark для большого фрейма данных, который превышает ресурсы кластера.

Последнее сообщение Anonymous « 27 ноя 2024, 12:39
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 12:39 » в форуме Python

У меня есть большой фрейм данных PySpark, содержащий 250 миллионов строк и всего 2 столбца. Я использую код minHash, найденный здесь. Я попытался записать полученный фрейм данных в файлы паркета с помощью adj_sdf.write.mode( append ).parquet(...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 12:39
Оптимизируйте код PySpark для большого фрейма данных, который превышает ресурсы кластера.

Последнее сообщение Anonymous « 27 ноя 2024, 18:03
Добавлено в форуме Python

Anonymous » 27 ноя 2024, 18:03 » в форуме Python

У меня есть большой фрейм данных PySpark, содержащий 250 миллионов строк и всего 2 столбца. Я использую код minHash, найденный здесь. Я попытался записать полученный фрейм данных в файлы паркета с помощью adj_sdf.write.mode( append ).parquet(...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
27 ноя 2024, 18:03
Оптимизируйте код Python, чтобы удалить слова из очень большого отдела обработки данных

Последнее сообщение Anonymous « 26 янв 2025, 11:13
Добавлено в форуме Python

Anonymous » 26 янв 2025, 11:13 » в форуме Python

Моя цель - удалить редкие слова из DataFrame от размера 3 миллиона. Ниже код занимает очень много времени. Есть ли способ, который я могу его оптимизировать?
rare_word=[]
for k,v in frequency_word.items():
if v

Подробнее здесь:

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 янв 2025, 11:13

Вернуться в «Python»