Как выбрать верхние k строк кадра данных полярностей Python для каждой группы? - Цифровое Кемерово

Как выбрать верхние k строк кадра данных полярностей Python для каждой группы? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как выбрать верхние k строк кадра данных полярностей Python для каждой группы?

Цитата

Сообщение Anonymous » 01 окт 2024, 00:45

Кадр данных Polars имеет метод top_k, который можно использовать для выбора строк, содержащих k наибольших значений, при сортировке по столбцу. Например, следующий код выбирает две строки с самой большой и второй по величине записью в столбце val:

Код: Выделить всё

df = pl.DataFrame({'grp':['a','a','a','b','b','b'], 'val':[1,2,3,10,20,30], 'etc':[0,1,2,3,4,5]})

grp val etc
str i64 i64
"a" 1   0
"a" 2   1
"a" 3   2
"b" 10  3
"b" 20  4
"b" 30  5

df.top_k(2, by='val')

grp val etc
str i64 i64
"b" 30  5
"b" 20  4

Мой вопрос: как мне получить строки с верхними значениями k для каждой группы? В частности, мне нужна вся строка, а не только значение в столбце val. Я хочу сделать что-то подобное, но это не работает в полярах, потому что в полярах GroupBy нет метода top_k:

Код: Выделить всё

df.groupby('grp').top_k(2, by='val') # doesnt work in polars

grp val etc
str i64 i64
"b" 30  5
"b" 20  4
"a" 3   2
"a" 2   1

Мне удалось придумать два способа: один с использованием Map_groups и другой с использованием сортировки. Оба из них нежелательны по соображениям производительности. Map_groups обычно не рекомендуется, поскольку он почти всегда значительно медленнее. Опция сортировки также нежелательна, поскольку для получения верхних k элементов используется более быстрый алгоритм, чем для сортировки (для маленьких k и больших n это в основном O (n) против O (n log n)). Поэтому, хотя приведенное ниже работает, я ищу другие подходы. Есть ли способ напрямую использовать метод top_k с группировкой поляров? Это было бы мое идеальное решение.

Код: Выделить всё

# works, but at expense of using map_groups method
df.group_by('grp').map_groups(lambda df: df.top_k(2, by='val'))

grp val etc
str i64 i64
"b" 30  5
"b" 20  4
"a" 3   2
"a" 2   1

Код: Выделить всё

# works, but at expense of sorting entire groups
df.group_by('grp').agg(pl.all().sort_by('val', descending=True).head(2)).explode('val','etc')

grp val etc
str i64 i64
"a" 3   2
"a" 2   1
"b" 30  5
"b" 20  4

Код: Выделить всё
```
df.group_by('grp').top_k(2, by='val')
```
, который не работает в полярах.
Код: Выделить всё
```
df.group_by('grp').map_groups(lambda df: df.top_k(2, by='val'))
```
, который работает за счет использования карт_групп
Код: Выделить всё
```
df.group_by('grp').agg(pl.all().sort_by('val', descending=True).head(2)).explode('val','etc')
```
, который работает за счет сортировки

Подробнее здесь: https://stackoverflow.com/questions/765 ... each-group

Реклама

1727732729

Anonymous

Кадр данных Polars имеет метод top_k, который можно использовать для выбора строк, содержащих k наибольших значений, при сортировке по столбцу. Например, следующий код выбирает две строки с самой большой и второй по величине записью в столбце val:
[code]df = pl.DataFrame({'grp':['a','a','a','b','b','b'], 'val':[1,2,3,10,20,30], 'etc':[0,1,2,3,4,5]})

grp val etc
str i64 i64
"a" 1   0
"a" 2   1
"a" 3   2
"b" 10  3
"b" 20  4
"b" 30  5

df.top_k(2, by='val')

grp val etc
str i64 i64
"b" 30  5
"b" 20  4
[/code]
Мой вопрос: как мне получить строки с верхними значениями k для каждой группы? В частности, мне нужна вся строка, а не только значение в столбце val. Я хочу сделать что-то подобное, но это не работает в полярах, потому что в полярах GroupBy нет метода top_k:
[code]df.groupby('grp').top_k(2, by='val') # doesnt work in polars

grp val etc
str i64 i64
"b" 30  5
"b" 20  4
"a" 3   2
"a" 2   1
[/code]
Мне удалось придумать два способа: один с использованием Map_groups и другой с использованием сортировки. Оба из них нежелательны по соображениям производительности. Map_groups обычно не рекомендуется, поскольку он почти всегда значительно медленнее. Опция сортировки также нежелательна, поскольку для получения верхних k элементов используется более быстрый алгоритм, чем для сортировки (для маленьких k и больших n это в основном O (n) против O (n log n)). Поэтому, хотя приведенное ниже работает, я ищу другие подходы. Есть ли способ напрямую использовать метод top_k с группировкой поляров? Это было бы мое идеальное решение.
[code]# works, but at expense of using map_groups method
df.group_by('grp').map_groups(lambda df: df.top_k(2, by='val'))

grp val etc
str i64 i64
"b" 30  5
"b" 20  4
"a" 3   2
"a" 2   1
[/code]
[code]# works, but at expense of sorting entire groups
df.group_by('grp').agg(pl.all().sort_by('val', descending=True).head(2)).explode('val','etc')

grp val etc
str i64 i64
"a" 3   2
"a" 2   1
"b" 30  5
"b" 20  4
[/code]
[list]
[*][code]df.group_by('grp').top_k(2, by='val')[/code], который не работает в полярах.
[*][code]df.group_by('grp').map_groups(lambda df: df.top_k(2, by='val'))[/code], который работает за счет использования карт_групп
[*][code]df.group_by('grp').agg(pl.all().sort_by('val', descending=True).head(2)).explode('val','etc')[/code], который работает за счет сортировки
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/76596952/how-do-i-select-the-top-k-rows-of-a-python-polars-dataframe-for-each-group[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Pandas Groupby Несколько столбцов, агрегируйте некоторые столбцы, добавьте столбец каждой группы каждой группы

Последнее сообщение Anonymous « 19 фев 2025, 12:51
Добавлено в форуме Python

Anonymous » 19 фев 2025, 12:51 » в форуме Python

Данные, с которыми я работаю:
data (140631115432592), ndim: 2, size: 3947910, shape: (232230, 17)
VIN (1-10) object
County object
City object
State object
Postal Code float64
Model Year int64
Make object
Model object
Electric Vehicle Type object...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 12:51
Как ускорить операцию повторения первых n строк для каждой группы после группы?

Последнее сообщение Anonymous « 06 янв 2025, 06:52
Добавлено в форуме Python

Anonymous » 06 янв 2025, 06:52 » в форуме Python

Файл df содержит миллионы строк, а столбцов group_by — около 15–20. Есть ли способ ускорить эту операцию?
import polars as pl
import numpy as np

n = 50
df = pl.DataFrame(np.random.randint(0, 100, size=(4, n)), schema= )
x_list =...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 06:52
Как ускорить операцию повторения первых n строк для каждой группы после группы?

Последнее сообщение Anonymous « 06 янв 2025, 08:01
Добавлено в форуме Python

Anonymous » 06 янв 2025, 08:01 » в форуме Python

Файл df содержит 100 миллионов строк, а столбцов group_by — около 25–30. Есть ли способ ускорить эту операцию отсюда? или это лучшее, что я могу получить.
import polars as pl
import numpy as np

rows = 100000000
n_cols = 30
df =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
06 янв 2025, 08:01
Как выбрать разное количество строк из каждой группы в DataFrame

Последнее сообщение Anonymous « 07 ноя 2024, 18:26
Добавлено в форуме Python

Anonymous » 07 ноя 2024, 18:26 » в форуме Python

У меня есть фрейм данных со столбцом категории. Df имеет разное количество строк для каждой категории.

category number_of_rows
cat1 19189
cat2 13193
cat3 4500
cat4 1914
cat5 568
cat6 473
cat7 216
cat8 206
cat9 197
cat10 147
cat11 130
cat12 49...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
07 ноя 2024, 18:26
Как найти верхние n или нижние n числовые значения DF после группы

Последнее сообщение Anonymous « 13 июл 2025, 20:56
Добавлено в форуме Python

Anonymous » 13 июл 2025, 20:56 » в форуме Python

Это распечатывает 10 наихудших средних значений в DataFrame (этот флаг Data Frame был построен с помощью AGG, поэтому он имеет многоуровневое имя столбца).
worst = rcresult.sort_values(by=('resolvetime', 'mean') ,ascending=False).head(10)...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
13 июл 2025, 20:56

Вернуться в «Python»

Programmiererforum