Фильтрация DataFrame с использованием внутригруппового выраженияPython

Программы на Python
Ответить
Anonymous
 Фильтрация DataFrame с использованием внутригруппового выражения

Сообщение Anonymous »

Предполагая, что у меня уже есть выражение предиката, как мне фильтровать его с помощью этого предиката, но применять его только внутри групп? Например, предикатом может быть сохранение всех строк равными максимальному значению или внутри группы. (Если есть связь, в группе может храниться несколько строк.)
Благодаря моему опыту работы с dplyr я подумал, что можно просто .groupby, а затем .filter, но это не работает.
import polars as pl
df = pl.DataFrame(dict(x=[0, 0, 1, 1], y=[1, 2, 3, 3]))
expression = pl.col("y") == pl.col("y").max()

df.groupby("x").filter(expression)
# AttributeError: 'GroupBy' object has no attribute 'filter'

Тогда я подумал, что можно применить .over к выражению, но это тоже не работает.
import polars as pl
df = pl.DataFrame(dict(x=[0, 0, 1, 1], y=[1, 2, 3, 3]))
expression = pl.col("y") == pl.col("y").max()

df.filter(expression.over("x"))
# RuntimeError: Any(ComputeError("this binary expression is not an aggregation:
# [(col(\"y\")) == (col(\"y\").max())]
# pherhaps you should add an aggregation like, '.sum()', '.min()', '.mean()', etc.
# if you really want to collect this binary expression, use `.list()`"))

Для этой конкретной проблемы я могу вызвать .over на максимуме, но я не знаю, как применить это к произвольному предикату, над которым у меня нет контроля.
import polars as pl
df = pl.DataFrame(dict(x=[0, 0, 1, 1], y=[1, 2, 3, 3]))
expression = pl.col("y") == pl.col("y").max().over("x")
df.filter(expression)
# shape: (3, 2)
# ┌─────┬─────┐
# │ x ┆ y │
# │ --- ┆ --- │
# │ i64 ┆ i64 │
# ╞═════╪═════╡
# │ 0 ┆ 2 │
# ├╌╌╌╌╌┼╌╌╌╌╌┤
# │ 1 ┆ 3 │
# ├╌╌╌╌╌┼╌╌╌╌╌┤
# │ 1 ┆ 3 │
# └─────┴─────┘


Подробнее здесь: https://stackoverflow.com/questions/710 ... expression
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»