Сохраняйте только повторяющиеся строки на основе подмножества столбцов в Polars.

Сохраняйте только повторяющиеся строки на основе подмножества столбцов в Polars. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Сохраняйте только повторяющиеся строки на основе подмножества столбцов в Polars.

Цитата

Сообщение Anonymous » 04 ноя 2025, 12:17

У меня есть фрейм данных, который я хотел бы изучить и просмотреть только повторяющиеся строки на основе двух или более столбцов.
Например:
import polars as pl

df = pl.DataFrame({"A": [1, 6, 5, 4, 5, 6],
"B": ["A", "B", "C", "D", "C", "A"],
"C": [2, 2, 2, 1, 1, 1]})

Я хотел бы вернуть повторяющуюся комбинацию только для столбцов A и B. Я пробовал:
df.filter(pl.col("A", "B").is_duplicated()) # Returns: This is ambiguous. Try to combine the predicates with the 'all' or `any' expression.

При добавлении .all() между ними результат будет таким же, как указано выше.
df.filter(pl.col("A", "B").all().is_duplicated()) # Same as above

Unique с сохранением «none» возвращает противоположный результат, который мне хотелось бы, поэтому попробовал следующее:
df.unique(subset=["A", "B"], keep="none").is_not() # 'DataFrame' object has no attribute 'is_not'

Ожидаемый результат — видеть только строки:
shape: (2, 3)
┌─────┬─────┬─────┐
│ A | B | C │
│ --- | --- | --- │
│ i64 | str | i64 │
╞═════╪═════╪═════╡
│ 5 | C | 2 │
│ 5 | C | 1 │
└─────┴─────┴─────┘

Подробнее здесь: https://stackoverflow.com/questions/757 ... -in-polars

1762247822

Anonymous

У меня есть фрейм данных, который я хотел бы изучить и просмотреть только повторяющиеся строки на основе двух или более столбцов.
Например:
import polars as pl

df = pl.DataFrame({"A": [1, 6, 5, 4, 5, 6],
"B": ["A", "B", "C", "D", "C", "A"],
"C": [2, 2, 2, 1, 1, 1]})

Я хотел бы вернуть повторяющуюся комбинацию только для столбцов A и B. Я пробовал:
df.filter(pl.col("A", "B").is_duplicated()) # Returns: This is ambiguous. Try to combine the predicates with the 'all' or `any' expression.

При добавлении .all() между ними результат будет таким же, как указано выше.
df.filter(pl.col("A", "B").all().is_duplicated()) # Same as above

Unique с сохранением «none» возвращает противоположный результат, который мне хотелось бы, поэтому попробовал следующее:
df.unique(subset=["A", "B"], keep="none").is_not() # 'DataFrame' object has no attribute 'is_not'

Ожидаемый результат — видеть только строки:
shape: (2, 3)
┌─────┬─────┬─────┐
│ A   | B   | C   │
│ --- | --- | --- │
│ i64 | str | i64 │
╞═════╪═════╪═════╡
│ 5   | C   | 2   │
│ 5   | C   | 1   │
└─────┴─────┴─────┘
 

Подробнее здесь: [url]https://stackoverflow.com/questions/75730853/keep-only-duplicated-rows-based-on-a-subset-of-columns-in-polars[/url]