Как правильно извлечь все повторяющиеся строки в кадре данных Polars с дополнительным условием? - Цифровое Кемерово

Как правильно извлечь все повторяющиеся строки в кадре данных Polars с дополнительным условием? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как правильно извлечь все повторяющиеся строки в кадре данных Polars с дополнительным условием?

Цитата

Сообщение Anonymous » 04 ноя 2025, 12:38

При наличии фрейма данных Polars я хочу извлечь все повторяющиеся строки, одновременно применяя дополнительное условие фильтра, например:

Код: Выделить всё

import polars as pl

df = pl.DataFrame({
"name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
"city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
"age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error

Однако это приводит к ошибке:

SchemaError: невозможно распаковать серию объектов типа в bool

Это намекает на то, что df.is_duulated() возвращает серию объектов типа, но на самом деле это логическое значение Серия.
Удивительно, но переупорядочение предикатов путем размещения выражения первым заставляет его работать (но почему?):

Код: Выделить всё

df.filter((pl.col("city") == "NY") & (df.is_duplicated()))  # works!

правильно выводит:

Код: Выделить всё

shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘

Я понимаю, что оптимальным подходом при фильтрации дубликатов на основе подмножества столбцов является использование pl.struct, например:

Код: Выделить всё

df.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY"))  # works

Это отлично работает с дополнительным условием фильтра.
Однако я намеренно не использую pl.struct, поскольку мой реальный фрейм данных имеет 40 столбцов, и я хочу проверить наличие повторяющихся строк на основе всех столбцов, кроме трех, поэтому я сделал следующее:

Код: Выделить всё

df.filter(df.drop("col1", "col2", "col3").is_duplicated())

Это прекрасно работает и гораздо удобнее, чем писать все 37 столбцов в pl.struct. Однако это нарушается при добавлении дополнительного условия фильтра справа, но не слева:

Код: Выделить всё

df.filter(
(df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
)  # breaks!

df.filter(
(pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
)  # works!

Почему порядок предикатов (серия и выражение против выражения и серии) имеет значение внутри .filter() в этом случае?
Это задуманное поведение в Polars или ошибка?

Подробнее здесь: https://stackoverflow.com/questions/795 ... -an-additi

1762249120

Anonymous

При наличии фрейма данных Polars я хочу извлечь все повторяющиеся строки, одновременно применяя дополнительное условие фильтра, например:
[code]import polars as pl

df = pl.DataFrame({
"name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
"city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
"age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error
[/code]
Однако это приводит к ошибке:

SchemaError: невозможно распаковать серию объектов типа в bool

Это намекает на то, что df.is_duulated() возвращает серию объектов типа, но на самом деле это логическое значение Серия.
Удивительно, но переупорядочение предикатов путем размещения выражения первым заставляет его работать (но почему?):

[code]df.filter((pl.col("city") == "NY") & (df.is_duplicated()))  # works![/code] правильно выводит:
[code]shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘
[/code]
Я понимаю, что оптимальным подходом при фильтрации дубликатов на основе подмножества столбцов является использование pl.struct, например:

[code]df.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY"))  # works[/code]
Это отлично работает с дополнительным условием фильтра.
Однако я намеренно не использую pl.struct, поскольку мой реальный фрейм данных имеет 40 столбцов, и я хочу проверить наличие повторяющихся строк на основе всех столбцов, кроме трех, поэтому я сделал следующее:

[code]df.filter(df.drop("col1", "col2", "col3").is_duplicated())[/code]
Это прекрасно работает и гораздо удобнее, чем писать все 37 столбцов в pl.struct. Однако это нарушается при добавлении дополнительного условия фильтра справа, но не слева:
[code]df.filter(
(df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
)  # breaks!

df.filter(
(pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
)  # works!
[/code]
[b]Почему[/b] порядок предикатов (серия и выражение против выражения и серии) имеет значение внутри .filter() в этом случае?
Это задуманное поведение в Polars или ошибка?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79595283/how-to-properly-extract-all-duplicated-rows-in-a-polars-dataframe-with-an-additi[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»