Есть ли способ повторить распределение значений на основе подсчетов Pandas GroupBy между двумя кадрами данных? - Цифровое Кемерово

Есть ли способ повторить распределение значений на основе подсчетов Pandas GroupBy между двумя кадрами данных? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Есть ли способ повторить распределение значений на основе подсчетов Pandas GroupBy между двумя кадрами данных?

Цитата

Сообщение Anonymous » 31 июл 2024, 20:02

У меня есть два кадра данных Pandas с одинаковой структурой, но разной формы и значений:

Код: Выделить всё

import pandas as pd

dataframe_1 = pd.DataFrame({'customer_id': ['id1', 'id2', 'id3', 'id4', 'id5', 'id6'],
'gender': ['M', 'M', 'F', 'F', 'F', 'F'],
'age': ['18-25', '25-40', '18-25', '18-25', '60+', '18-25'],
'region': ['America', 'Africa', 'America', 'Asia', 'Europe', 'Asia']})

dataframe_2 = pd.DataFrame({'customer_id': ['id11', 'id12', 'id13', 'id14', 'id15', 'id16', 'id17', 'id18', 'id19', 'id20', 'id21'],
'gender': ['M', 'M', 'F', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F'],
'age': ['18-25', '25-40', '18-25', '18-25', '60+', '18-25', '25-40', '60+', '18-25', '60+', '18-25'],
'region': ['America', 'Africa', 'America', 'Asia', 'Europe', 'Europe', 'Africa', 'Australia', 'Asia', 'Europe', 'Asia']})

Я выполнил GroupBy для dataframe_1, чтобы подсчитать количество клиентов в каждой группе, и получил распределение в форме dataframe:

Код: Выделить всё

pd.DataFrame(dataframe_1.groupby(['gender', 'age', 'region'])['customer_id'].count()).reset_index

Вывод:

Код: Выделить всё

    gender  age     region  customer_id
0   F       18-25   America 1
1   F       18-25   Asia    2
2   F       60+     Europe  1
3   M       18-25   America 1
4   M       25-40   Africa  1

Есть ли способ применить это распределение к dataframe_2, чтобы получить отдельные идентификаторы клиентов с совпадающими параметрами?
Итак, в случае строки 0 ([' F', '18-25', 'Америка']), это будет единственный вариант datframe_2, id13.
В случае строки 1 (['F', '18 -25', 'Азия']), это будут любые два уникальных идентификатора из [id_14, id_19, id_21] и т.д.
P.S. Чтобы добавить некоторый контекст, я пытаюсь создать группу A на основе распределения значений в группе B, чтобы оценить результаты AB-теста. Я понимаю, как это звучит, но именно это мне и было поручено.

Подробнее здесь: https://stackoverflow.com/questions/788 ... upbys-coun

Реклама

1722445348

Anonymous

У меня есть два кадра данных Pandas с одинаковой структурой, но разной формы и значений:
[code]import pandas as pd

dataframe_1 = pd.DataFrame({'customer_id': ['id1', 'id2', 'id3', 'id4', 'id5', 'id6'],
'gender': ['M', 'M', 'F', 'F', 'F', 'F'],
'age': ['18-25', '25-40', '18-25', '18-25', '60+', '18-25'],
'region': ['America', 'Africa', 'America', 'Asia', 'Europe', 'Asia']})

dataframe_2 = pd.DataFrame({'customer_id': ['id11', 'id12', 'id13', 'id14', 'id15', 'id16', 'id17', 'id18', 'id19', 'id20', 'id21'],
'gender': ['M', 'M', 'F', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F'],
'age': ['18-25', '25-40', '18-25', '18-25', '60+', '18-25', '25-40', '60+', '18-25', '60+', '18-25'],
'region': ['America', 'Africa', 'America', 'Asia', 'Europe', 'Europe', 'Africa', 'Australia', 'Asia', 'Europe', 'Asia']})
[/code]
Я выполнил GroupBy для dataframe_1, чтобы подсчитать количество клиентов в каждой группе, и получил распределение в форме dataframe:
[code]pd.DataFrame(dataframe_1.groupby(['gender', 'age', 'region'])['customer_id'].count()).reset_index
[/code]
Вывод:
[code]    gender  age     region  customer_id
0   F       18-25   America 1
1   F       18-25   Asia    2
2   F       60+     Europe  1
3   M       18-25   America 1
4   M       25-40   Africa  1
[/code]
Есть ли способ применить это распределение к dataframe_2, чтобы получить отдельные идентификаторы клиентов с совпадающими параметрами?
Итак, в случае строки 0 ([' F', '18-25', 'Америка']), это будет единственный вариант datframe_2, id13.
В случае строки 1 (['F', '18 -25', 'Азия']), это будут любые два уникальных идентификатора из [id_14, id_19, id_21] и т.д.
P.S. Чтобы добавить некоторый контекст, я пытаюсь создать группу A на основе распределения значений в группе B, чтобы оценить результаты AB-теста. Я понимаю, как это звучит, но именно это мне и было поручено. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78812830/is-there-a-way-to-repeat-a-distribution-of-values-based-on-pandas-groupbys-coun[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Есть ли способ повторить распределение значений на основе подсчетов Pandas GroupBy между двумя кадрами данных?

Последнее сообщение Anonymous « 30 июл 2024, 23:00
Добавлено в форуме Python

Anonymous » 30 июл 2024, 23:00 » в форуме Python

У меня есть два кадра данных Pandas с одинаковой структурой, но с разными идентификаторами customer_ids:

customer_id
пол
возраст
регион

значения
ценности
ценности
ценности

Я выполнил GroupBy для dataframe_1, чтобы подсчитать количество...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 23:00
Есть ли способ повторить распределение значений на основе подсчетов Pandas GroupBy между двумя кадрами данных?

Последнее сообщение Anonymous « 31 июл 2024, 03:13
Добавлено в форуме Python

Anonymous » 31 июл 2024, 03:13 » в форуме Python

У меня есть два кадра данных Pandas с одинаковой структурой, но разной формы и значений:
import pandas as pd

dataframe_1 = pd.DataFrame({'customer_id': ,
'gender': ,
'age': ,
'region': })

dataframe_2 = pd.DataFrame({'customer_id': ,
'gender': ,...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
31 июл 2024, 03:13
Как скопировать значения между двумя кадрами данных на основе похожих/совпадающих элементов в нескольких столбцах?

Последнее сообщение Anonymous « 15 окт 2024, 08:12
Добавлено в форуме Python

Anonymous » 15 окт 2024, 08:12 » в форуме Python

У меня есть 2 фрейма данных (df1 и df2), и они выглядят так:
df1
index gameID Team A B C
0 0001 Lakers 10 100 90
1 0001 Clippers 20 105 91
2 0002 Celtics 30 110 92
3 0002 Warriors 40 115 93
4 0003 Suns 10 100 94
5 0003 Jazz 20 105 95
6 0004 Heat 30...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 08:12
Оптимальный по производительности способ сериализации объектов Python с большими кадрами данных Pandas

Последнее сообщение Anonymous « 28 сен 2024, 18:16
Добавлено в форуме Python

Anonymous » 28 сен 2024, 18:16 » в форуме Python

Я имею дело с объектами Python, содержащими объекты Pandas DataFrame и Numpy Series. Они могут быть большими, в несколько миллионов строк.
Например:

@dataclass
class MyWorld:
# A lot of DataFrames with millions of rows
samples: pd.DataFrame...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
28 сен 2024, 18:16
Python Pandas: Groupby несколько столбцов и линейно интерполяция значений столбца Y на основе другого столбца x

Последнее сообщение Anonymous « 07 фев 2025, 19:15
Добавлено в форуме Python

Anonymous » 07 фев 2025, 19:15 » в форуме Python

Рассмотрим следующий Pandas DataFrame
reference sicovam label id date TTM price
0 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 18 52.69
1 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 30 NaN
2 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 49...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 19:15

Вернуться в «Python»

Programmiererforum