gender age region customer_id
0 F 18-25 America 1
1 F 18-25 Asia 2
2 F 60+ Europe 1
3 M 18-25 America 1
4 M 25-40 Africa 1
Есть ли способ применить это распределение к dataframe_2, чтобы получить отдельные идентификаторы клиентов с совпадающими параметрами?
Итак, в случае строки 0 ([' F', '18-25', 'Америка']), это будет единственный вариант datframe_2, id13.
В случае строки 1 (['F', '18 -25', 'Азия']), это будут любые два уникальных идентификатора из [id_14, id_19, id_21] и т.д.
P.S. Чтобы добавить некоторый контекст, я пытаюсь создать группу A на основе распределения значений в группе B, чтобы оценить результаты AB-теста. Я понимаю, как это звучит, но именно это мне и было поручено.
dataframe_2 = pd.DataFrame({'customer_id': ['id11', 'id12', 'id13', 'id14', 'id15', 'id16', 'id17', 'id18', 'id19', 'id20', 'id21'], 'gender': ['M', 'M', 'F', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F'], 'age': ['18-25', '25-40', '18-25', '18-25', '60+', '18-25', '25-40', '60+', '18-25', '60+', '18-25'], 'region': ['America', 'Africa', 'America', 'Asia', 'Europe', 'Europe', 'Africa', 'Australia', 'Asia', 'Europe', 'Asia']}) [/code] Я выполнил GroupBy для dataframe_1, чтобы подсчитать количество клиентов в каждой группе, и получил распределение в форме dataframe: [code]pd.DataFrame(dataframe_1.groupby(['gender', 'age', 'region'])['customer_id'].count()).reset_index [/code] Вывод: [code] gender age region customer_id 0 F 18-25 America 1 1 F 18-25 Asia 2 2 F 60+ Europe 1 3 M 18-25 America 1 4 M 25-40 Africa 1 [/code] Есть ли способ применить это распределение к dataframe_2, чтобы получить отдельные идентификаторы клиентов с совпадающими параметрами? Итак, в случае строки 0 ([' F', '18-25', 'Америка']), это будет единственный вариант datframe_2, id13. В случае строки 1 (['F', '18 -25', 'Азия']), это будут любые два уникальных идентификатора из [id_14, id_19, id_21] и т.д. P.S. Чтобы добавить некоторый контекст, я пытаюсь создать группу A на основе распределения значений в группе B, чтобы оценить результаты AB-теста. Я понимаю, как это звучит, но именно это мне и было поручено.
У меня есть 2 фрейма данных (df1 и df2), и они выглядят так:
df1
index gameID Team A B C
0 0001 Lakers 10 100 90
1 0001 Clippers 20 105 91
2 0002 Celtics 30 110 92
3 0002 Warriors 40 115 93
4 0003 Suns 10 100 94
5 0003 Jazz 20 105 95
6 0004 Heat 30...