Получение пересечения подмножества многоиндексного фрейма данных из Pandas

Получение пересечения подмножества многоиндексного фрейма данных из Pandas ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Получение пересечения подмножества многоиндексного фрейма данных из Pandas

Цитата

Сообщение Anonymous » 08 июл 2024, 15:58

У меня есть несколько индексных df с месяцем, затем идентификаторами объектов и значением TotalSpend для каждого объекта. Я пытаюсь агрегировать общие расходы по всем учреждениям за квартал, где есть данные за все 3 месяца квартала И за все 3 месяца квартала предыдущего года.
< img alt="введите описание изображения здесь" src="https://i.sstatic.net/Di3fCQ4E.png" />
В моем примере данных я попытался получить подмножество Апрель, май и июнь из df, а затем выполняю внутреннее соединение, но когда я пытаюсь это сделать, я получаю сообщение об ошибке, что это не df, а df, который мне дает использование df.loc[[date]]. По сути, я хотел бы проверить, какие идентификаторы объектов отображаются за все 3 месяца квартала, и сохранить только эти значения.
Желаемый результат:
Желаемый результат Выходными данными будут сумма расходов во втором квартале 2024 года по всем учреждениям, по которым есть данные за все три месяца второго квартала 2024 года, а затем сумма расходов во втором квартале 2023 года по всем этим же учреждениям.
В данном случае будет только Объект 1, поэтому сумма за второй квартал 2024 года составит 450, а сумма за первый квартал 2024 года — 300.
[img]https://i.sstatic .net/6GUWEfBM.png[/img]

Код:
import pandas as pd
import datetime

def open_file(path, quarter_number, months):
df_raw = pd.DataFrame({'Date':["2024-04-01","2024-05-01","2024-06-01", "2024-06-01","2024-05-01","2023-04-01","2023-05-01","2023-06-01","2024-05-01","2024-06-01","2023-05-01","2023-06-01", "2023-04-01","2024-05-01","2024-06-01"],
'FacilityID': [1,1,1,1,1,1,1,1,2,2,2,2,3,4,4],
'TotalSpend': [100,110,120,50,70,90,100,110,150,140,120,60,90,190,150]
}).set_index('Date')
df = df_raw.groupby(['Date', 'FacilityID'])['TotalSpend'].sum()
# print(df)

cur_dates = []
prev_dates = []

for month in months:
cur_date = datetime.date(2024, month, 1)
prev_date = datetime.date(cur_date.year - 1, month, 1)
cur_dates.append(cur_date.strftime('%Y-%m-%d'))
prev_dates.append(prev_date.strftime('%Y-%m-%d'))

#this is where i'm having issues
cur_data =df.loc[[cur_dates[1]]].join(df.loc[[cur_dates[1]]], on='FacilityID' ,join = "inner")
prev_data = df.loc[prev_dates[0]:prev_dates[-1]]

# print(cur_data)
# print(prev_data)

if __name__ == "__main__":
change = open_file("path",2 ,[4,5,6])
print(change)

Подробнее здесь: https://stackoverflow.com/questions/787 ... rom-pandas

1720443499

Anonymous

У меня есть несколько индексных df с месяцем, затем идентификаторами объектов и значением TotalSpend для каждого объекта. Я пытаюсь агрегировать общие расходы по всем учреждениям за квартал, где есть данные за все 3 месяца квартала И за все 3 месяца квартала предыдущего года.
< img alt="введите описание изображения здесь" src="https://i.sstatic.net/Di3fCQ4E.png" />
В моем примере данных я попытался получить подмножество Апрель, май и июнь из df, а затем выполняю внутреннее соединение, но когда я пытаюсь это сделать, я получаю сообщение об ошибке, что это не df, а df, который мне дает использование df.loc[[date]].  По сути, я хотел бы проверить, какие идентификаторы объектов отображаются за все 3 месяца квартала, и сохранить только эти значения.
Желаемый результат:
Желаемый результат Выходными данными будут сумма расходов во втором квартале 2024 года по всем учреждениям, по которым есть данные за все три месяца второго квартала 2024 года, а затем сумма расходов во втором квартале 2023 года по всем этим же учреждениям.
В данном случае будет только Объект 1, поэтому сумма за второй квартал 2024 года составит 450, а сумма за первый квартал 2024 года — 300.
[img]https://i.sstatic .net/6GUWEfBM.png[/img]

Код:
import pandas as pd
import datetime

def open_file(path, quarter_number, months):
df_raw = pd.DataFrame({'Date':["2024-04-01","2024-05-01","2024-06-01", "2024-06-01","2024-05-01","2023-04-01","2023-05-01","2023-06-01","2024-05-01","2024-06-01","2023-05-01","2023-06-01", "2023-04-01","2024-05-01","2024-06-01"],
'FacilityID': [1,1,1,1,1,1,1,1,2,2,2,2,3,4,4],
'TotalSpend': [100,110,120,50,70,90,100,110,150,140,120,60,90,190,150]
}).set_index('Date')
df = df_raw.groupby(['Date', 'FacilityID'])['TotalSpend'].sum()
# print(df)

cur_dates = []
prev_dates = []

for month in months:
cur_date = datetime.date(2024, month, 1)
prev_date = datetime.date(cur_date.year - 1, month, 1)
cur_dates.append(cur_date.strftime('%Y-%m-%d'))
prev_dates.append(prev_date.strftime('%Y-%m-%d'))

#this is where i'm having issues
cur_data =df.loc[[cur_dates[1]]].join(df.loc[[cur_dates[1]]], on='FacilityID' ,join = "inner")
prev_data = df.loc[prev_dates[0]:prev_dates[-1]]

# print(cur_data)
# print(prev_data)

if __name__ == "__main__":
change = open_file("path",2 ,[4,5,6])
print(change)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78720752/getting-intersection-of-subset-of-multiindex-dataframe-from-pandas[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Использует ли Pandas хеширование для одноиндексного фрейма данных и двоичный поиск для многоиндексного фрейма данных?

Последнее сообщение Anonymous « 11 дек 2024, 18:12
Добавлено в форуме Python

Anonymous » 11 дек 2024, 18:12 » в форуме Python

У меня всегда сложилось впечатление, что Pandas использует хеширование при индексировании строк в кадре данных, поэтому такие операции, как df.loc , равны O(1).Однако только сегодня я понял, что это не так, по крайней мере, для многоиндексного...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
11 дек 2024, 18:12
Как добавить строку для отсортированного многоиндексного фрейма данных?

Последнее сообщение Anonymous « 08 ноя 2024, 14:58
Добавлено в форуме Python

Anonymous » 08 ноя 2024, 14:58 » в форуме Python

У меня есть мультииндексный фрейм данных, полученный из groupby.
Вот демо:
In : df = pd.DataFrame({'color': , 'name': ,'price': ,'bprice': })

In : df
Out :
color name price bprice
0 blue pen 2.5 2.2
1 grey pen 2.3 2.0
2 blue pencil 1.5 1.3
3 grey...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
08 ноя 2024, 14:58
Создайте графику для многоиндексного фрейма данных

Последнее сообщение Anonymous « 21 янв 2025, 09:39
Добавлено в форуме Python

Anonymous » 21 янв 2025, 09:39 » в форуме Python

Это мой первый вопрос. Я не нашел способа создать графику из многоиндексированного фрейма данных, чтобы показать, что разработка идет для ответов на тест. Постоянно выдает ошибки. Первая часть кода просто объясняет, как я создал фрейм данных, чтобы...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
21 янв 2025, 09:39
Изменение подмножества фрейма данных pandas также изменяет исходный фрейм данных.

Последнее сообщение Anonymous « 26 дек 2024, 20:11
Добавлено в форуме Python

Anonymous » 26 дек 2024, 20:11 » в форуме Python

У меня есть DataFrame pandas, который я перебираю, чтобы получить значения из двух столбцов (col_1 и col_2). Второй столбец содержит списки. Что мне нужно сделать, так это для каждого значения в col_1 получить список значений в col_2 и вставить...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
26 дек 2024, 20:11
Изменение подмножества фрейма данных pandas также изменяет исходный фрейм данных.

Последнее сообщение Anonymous « 26 дек 2024, 22:09
Добавлено в форуме Python

Anonymous » 26 дек 2024, 22:09 » в форуме Python

У меня есть DataFrame pandas, который я перебираю, чтобы получить значения из двух столбцов ( col_1 и col_2). Второй столбец содержит списки. Что мне нужно сделать, так это для каждого значения в col_1 получить список значений в col_2 и вставить...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
26 дек 2024, 22:09

Вернуться в «Python»