Как эффективно выполнять условные скользящие агрегаты в Pandas с группировкой и фильтрацией результатов? - Цифровое Кемерово

Как эффективно выполнять условные скользящие агрегаты в Pandas с группировкой и фильтрацией результатов? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно выполнять условные скользящие агрегаты в Pandas с группировкой и фильтрацией результатов?

Цитата

Сообщение Anonymous » 04 дек 2024, 20:04

У меня есть большой DataFrame с миллионами строк, и я хочу эффективно выполнить следующее сложное преобразование:
import pandas as pd
import numpy as np

np.random.seed(42)
data = pd.DataFrame({
"Category": np.random.choice(['A', 'B', 'C'], size=1000),
"SubCategory": np.random.choice(['X', 'Y', 'Z'], size=1000),
"Date": pd.date_range('2023-01-01', periods=1000),
"Value": np.random.randint(1, 100, size=1000),
"Flag": np.random.choice([True, False], size=1000)
})

Мне нужно:
Сгруппировать DataFrame по категориям и подкатегориям.
В каждой группе отсортировать строки по столбцу «Дата».Для каждой группы рассчитайте скользящую сумму столбца «Значение» с размером окна 7, но только для строк, где флаг имеет значение True`.
После расчета скользящей суммы отфильтруйте строки, в которых скользящая сумма равна ниже 50.
Верните результат в виде нового DataFrame с иерархической индексацией (Категория, Подкатегория) и оставшимися строками, отсортированными по дате.
Желаемый результат:
Новый DataFrame с:
A многоуровневый индекс категории и подкатегории.
Только строки, соответствующие критериям фильтрации (скользящая сумма > 50 для строк, в которых установлен флаг). Верно).
Скользящая сумма включена в новый столбец под названием RollingSum.
Я пробовал использовать комбинацию groupby(),rolling() и apply(), но У меня возникли проблемы:
Как обрабатывать условную логику для Флага в скользящем вычислении.
Как оптимизировать этот процесс для больших DataFrames (например, избегать чрезмерных циклов) .
Вот моя первая попытка, которая работает медленно и не справляется с условным прокатом должным образом:
def calc_rolling(group):
group = group.sort_values('Date')
group['RollingSum'] = (
group.loc[group['Flag'], 'Value']
.rolling(window=7, min_periods=1)
.sum()
)
return group[group['RollingSum'] > 50]

result = data.groupby(['Category', 'SubCategory']).apply(calc_rolling)
result.set_index(['Category', 'SubCategory'], inplace=True)

Подробнее здесь: https://stackoverflow.com/questions/792 ... -and-filte

Реклама

1733331882

Anonymous

У меня есть большой DataFrame с миллионами строк, и я хочу эффективно выполнить следующее сложное преобразование:
import pandas as pd
import numpy as np

np.random.seed(42)
data = pd.DataFrame({
"Category": np.random.choice(['A', 'B', 'C'], size=1000),
"SubCategory": np.random.choice(['X', 'Y', 'Z'], size=1000),
"Date": pd.date_range('2023-01-01', periods=1000),
"Value": np.random.randint(1, 100, size=1000),
"Flag": np.random.choice([True, False], size=1000)
})


Мне нужно:
Сгруппировать DataFrame по категориям и подкатегориям.
В каждой группе отсортировать строки по столбцу «Дата».Для каждой группы рассчитайте скользящую сумму столбца «Значение» с размером окна 7, но только для строк, где флаг имеет значение True`.
После расчета скользящей суммы отфильтруйте строки, в которых скользящая сумма равна ниже 50.
Верните результат в виде нового DataFrame с иерархической индексацией (Категория, Подкатегория) и оставшимися строками, отсортированными по дате.
Желаемый результат:
Новый DataFrame с:
A многоуровневый индекс категории и подкатегории.
Только строки, соответствующие критериям фильтрации (скользящая сумма > 50 для строк, в которых установлен флаг). Верно).
Скользящая сумма включена в новый столбец под названием RollingSum.
Я пробовал использовать комбинацию groupby(),rolling() и apply(), но У меня возникли проблемы:
Как обрабатывать условную логику для Флага в скользящем вычислении.
Как оптимизировать этот процесс для больших DataFrames (например, избегать чрезмерных циклов) .
Вот моя первая попытка, которая работает медленно и не справляется с условным прокатом должным образом:
def calc_rolling(group):
group = group.sort_values('Date')
group['RollingSum'] = (
group.loc[group['Flag'], 'Value']
.rolling(window=7, min_periods=1)
.sum()
)
return group[group['RollingSum'] > 50]

result = data.groupby(['Category', 'SubCategory']).apply(calc_rolling)
result.set_index(['Category', 'SubCategory'], inplace=True)

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79252075/how-to-perform-conditional-rolling-aggregations-in-pandas-with-groupby-and-filte[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Скользящие средние значения Pandas для дат после группировки по

Последнее сообщение Гость « 02 мар 2024, 13:47
Добавлено в форуме Python

Гость » 02 мар 2024, 13:47 » в форуме Python

df = pd.DataFrame( { date : , numbers : , grouper : } ) If I have the following df and I would like to get the rolling mean for the values of numbers that are before each rows date column, how would I do that? eg. the rolling averages for the past 3...

0 Ответы

13 Просмотры

Последнее сообщение Гость
02 мар 2024, 13:47
Вложенные агрегаты Elasticsearch с данными Spring elasticsearch 5.2

Последнее сообщение Anonymous « 27 июн 2024, 12:57
Добавлено в форуме Elasticsearch aggregation

Anonymous » 27 июн 2024, 12:57 » в форуме Elasticsearch aggregation

Требуется помощь: выполните вложенную агрегацию с помощью Spring Data Elasticsearch 5.2.6 и Elasticsearch-rest-client 8.10
Я работаю над проектом, используя Elasticsearch с Spring Data Elasticsearch 5.2.6, и у меня возникают трудности для правильной...

0 Ответы

1097 Просмотры

Последнее сообщение Anonymous
27 июн 2024, 12:57
AggregateProjection не поддерживает агрегаты, которые являются обратимо удаленными базами данных Marten и C#.

Последнее сообщение Anonymous « 14 ноя 2024, 12:14
Добавлено в форуме C#

Anonymous » 14 ноя 2024, 12:14 » в форуме C#

Я пытаюсь активировать SnapShot и мягкое удаление для агрегата в базе данных marten. и когда я запускаю проект, я получаю ошибку времени выполнения: «AggregateProjection не может поддерживать обратимо удаленные агрегаты».
.net версия: 8
Версия...

0 Ответы

76 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 12:14
Какие агрегаты в этом приложении DDD?

Последнее сообщение Anonymous « 08 апр 2025, 00:38
Добавлено в форуме C#

Anonymous » 08 апр 2025, 00:38 » в форуме C#

Я занимаюсь asp.net в течение многих лет и сейчас играю в догоняние с MVC и DDD. Я понимаю большинство концепций. Я переопределяю веб-сайт, который предназначен для спортивного сайта. По сути, это приложение стиля CRUD, но хотелось бы использовать...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
08 апр 2025, 00:38
Как подразделение рабочего шаблона соответствует ссылкам на новые агрегаты?

Последнее сообщение Anonymous « 08 апр 2025, 00:48
Добавлено в форуме C#

Anonymous » 08 апр 2025, 00:48 » в форуме C#

фон

Насколько я понимаю, шаблон единиц работы (UOW) по существу обеспечивает семантику транзакций. Другими словами, учитывая домен агрегатов, которые сохраняются в соответствии с репозиториями, класс UOW позволяет потребителям домена...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
08 апр 2025, 00:48

Вернуться в «Python»

Programmiererforum