Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Цитата

Сообщение Anonymous » 24 окт 2024, 09:16

Я работаю с большим фреймом данных Pandas (около 30,5 миллионов строк), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является узким местом.
Вот упрощенная версия моего текущего подхода:

Код: Выделить всё

import pandas as pd

df = pd.DataFrame({
'category': ['A', 'B', 'A', 'B'] * 10**6,
'subcategory': ['X', 'Y', 'X', 'Y'] * 10**6,
'value': [1, 2, 3, 4] * 10**6,
'quantity': [10, 20, 30, 40] * 10**6
})

agg_functions = {
'value': ['sum', 'mean'],
'quantity': [lambda x: x.sum(), lambda x: (x > 20).mean()]
}

result = df.groupby(['category', 'subcategory']).agg(agg_functions)

Проблемы:
1. Кадр данных слишком велик, и приведенному выше коду не хватает памяти при работе с реальными данными.
2. Некоторые пользовательские функции агрегирования (например, лямбда-функции для количества) работают медленно и не позволяют эффективно использовать векторизованные операции.
3. Я хочу применить эти агрегаты более эффективно с точки зрения использования памяти, не прибегая к фрагментированию данных.
Вопросы:
1. Как оптимизировать операции группировки и суммирования для более эффективной обработки больших наборов данных, особенно при применении пользовательских функций?
2. Существуют ли какие-либо передовые методы, такие как использование numba, cython или параллельной обработки, для ускорения пользовательских агрегатов в группе Pandas?
3. Обеспечит ли в этом случае преобразование фрейма данных в другую структуру, например с использованием Polars, Dask или PySpark, значительное повышение производительности или есть способ сохранить его в Pandas и при этом оптимизировать производительность?
Мне нужны советы по повышению производительности по управлению памятью и оптимизации скорости при сохранении гибкости пользовательских агрегатов. Будем признательны за любые рекомендации по передовым методам или передовым методам!
Что я пробовал:
1. Базовый GroupBy с Pandas: я начал с использования функции Pandas groupby() с пользовательскими функциями агрегирования (например, лямбда-функциями), но это было слишком медленно для моего набора данных, содержащего миллионы строк. Лямбда-функции, особенно для условной агрегации, значительно замедляли производительность.
2. Оптимизация использования памяти: я попытался сократить потребление памяти, преобразовав столбцы в более эффективные типы данных (category для категориальных данных, int32 для целых чисел), но, хотя это помогло с памятью, время выполнения группировки и агрегации все еще было очень медленно.
3. Фрагментирование данных: я пытался обрабатывать данные частями, используя pd.read_csv() с chunksize, но управление частями и выполнение операций группировки между частями стало затруднительным, а объединение результатов привело к увеличению накладных расходов.4. Многопоточность с помощью joblib: я использовал joblib для распараллеливания применения пользовательских функций агрегирования, но прирост производительности был минимальным, вероятно, из-за характера пользовательских лямбда-функций и накладных расходов на управление несколькими потоками.5. Dask DataFrame: я экспериментировал с Dask, чтобы распределить рабочую нагрузку между несколькими ядрами, но управление пользовательскими функциями и обеспечение эффективного распределения всех операций усложняло работу без существенного улучшения производительности.

Подробнее здесь: https://stackoverflow.com/questions/791 ... ple-custom

1729750616

Anonymous

Я работаю с большим фреймом данных Pandas ([b]около 30,5 миллионов строк[/b]), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является узким местом.
Вот упрощенная версия моего текущего подхода:
[code]import pandas as pd

df = pd.DataFrame({
'category': ['A', 'B', 'A', 'B'] * 10**6,
'subcategory': ['X', 'Y', 'X', 'Y'] * 10**6,
'value': [1, 2, 3, 4] * 10**6,
'quantity': [10, 20, 30, 40] * 10**6
})

agg_functions = {
'value': ['sum', 'mean'],
'quantity': [lambda x: x.sum(), lambda x: (x > 20).mean()]
}

result = df.groupby(['category', 'subcategory']).agg(agg_functions)
[/code]
[b]Проблемы:[/b]
1. Кадр данных слишком велик, и приведенному выше коду не хватает памяти при работе с реальными данными.
2. Некоторые пользовательские функции агрегирования (например, лямбда-функции для количества) работают медленно и не позволяют эффективно использовать векторизованные операции.
3. Я хочу применить эти агрегаты более эффективно с точки зрения использования памяти, не прибегая к фрагментированию данных.
[b]Вопросы:[/b]
1. Как оптимизировать операции группировки и суммирования для более эффективной обработки больших наборов данных, особенно при применении пользовательских функций?
2. Существуют ли какие-либо передовые методы, такие как использование numba, cython или параллельной обработки, для ускорения пользовательских агрегатов в группе Pandas?
3. Обеспечит ли в этом случае преобразование фрейма данных в другую структуру, например с использованием Polars, Dask или PySpark, значительное повышение производительности или есть способ сохранить его в Pandas и при этом оптимизировать производительность?
Мне нужны советы по повышению производительности по управлению памятью и оптимизации скорости при сохранении гибкости пользовательских агрегатов. Будем признательны за любые рекомендации по передовым методам или передовым методам!
[b]Что я пробовал:[/b]
[b] 1. Базовый GroupBy с Pandas:[/b] я начал с использования функции Pandas groupby() с пользовательскими функциями агрегирования (например, лямбда-функциями), но это было слишком медленно для моего набора данных, содержащего миллионы строк. Лямбда-функции, особенно для условной агрегации, значительно замедляли производительность.
[b]2. Оптимизация использования памяти:[/b] я попытался сократить потребление памяти, преобразовав столбцы в более эффективные типы данных (category для категориальных данных, int32 для целых чисел), но, хотя это помогло с памятью, время выполнения группировки и агрегации все еще было очень медленно.
[b]3. Фрагментирование данных:[/b] я пытался обрабатывать данные частями, используя pd.read_csv() с chunksize, но управление частями и выполнение операций группировки между частями стало затруднительным, а объединение результатов привело к увеличению накладных расходов.[b]4. Многопоточность с помощью joblib:[/b] я использовал joblib для распараллеливания применения пользовательских функций агрегирования, но прирост производительности был минимальным, вероятно, из-за характера пользовательских лямбда-функций и накладных расходов на управление несколькими потоками.[b]5. Dask DataFrame:[/b] я экспериментировал с Dask, чтобы распределить рабочую нагрузку между несколькими ядрами, но управление пользовательскими функциями и обеспечение эффективного распределения всех операций усложняло работу без существенного улучшения производительности. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79120584/optimizing-pandas-groupby-and-aggregation-on-large-datasets-with-multiple-custom[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Последнее сообщение Anonymous « 24 окт 2024, 12:25
Добавлено в форуме Python

Anonymous » 24 окт 2024, 12:25 » в форуме Python

Я работаю с большим фреймом данных Pandas ( около 30,5 миллионов строк ), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 12:25
Оптимизация построения Trie во Flashtext для больших наборов данных с ключом-значением

Последнее сообщение Anonymous « 10 апр 2024, 10:44
Добавлено в форуме Python

Anonymous » 10 апр 2024, 10:44 » в форуме Python

В настоящее время я столкнулся с проблемой: мне нужно заменить большое количество слов в наборе данных. У меня около 16 миллионов пар слов «ключ-значение». Для замены я использую Flashtext, который работает хорошо. Однако проблема возникает при...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
10 апр 2024, 10:44
Оптимизация производительности алгоритма сортировки для больших целочисленных наборов данных в Java

Последнее сообщение Anonymous « 11 июл 2024, 18:05
Добавлено в форуме JAVA

Anonymous » 11 июл 2024, 18:05 » в форуме JAVA

Я реализовал на Java алгоритмы быстрой сортировки и сортировки слиянием, но они работают неэффективно при сортировке больших наборов данных целых чисел (от 1 до 100 000). Процесс сортировки занимает больше времени, чем ожидалось, особенно по мере...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
11 июл 2024, 18:05
Оптимизация отношений «один ко многим» для больших наборов данных в прогнозировании продаж

Последнее сообщение Anonymous « 19 окт 2024, 17:48
Добавлено в форуме Python

Anonymous » 19 окт 2024, 17:48 » в форуме Python

# Convert to Polars DataFrame
try:
df = pl.from_pandas(data)
print('Conversion to Polars DataFrame done...')
except Exception as e:
return JsonResponse({'error': f'Error converting to Polars DataFrame: {str(e)}'}, status=500)

# Ensure the necessary...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
19 окт 2024, 17:48
Перечислите все доступные имена наборов данных, содержащиеся в наборе данных наборов данных Hugginface.

Последнее сообщение Anonymous « 11 окт 2024, 19:56
Добавлено в форуме Python

Anonymous » 11 окт 2024, 19:56 » в форуме Python

Я хочу знать, какие наборы данных включены, например. эта коллекция наборов данных Huggingface:

m4_daily и weatherbench_daily упоминаются явно, но их должно быть больше .
Меня не интересует список всех таких коллекций.
Я получаю список через...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 19:56

Вернуться в «Python»