Найдите частоту появления наиболее частого сегмента для столбца.

Найдите частоту появления наиболее частого сегмента для столбца. ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Найдите частоту появления наиболее частого сегмента для столбца.

Цитата

Сообщение Anonymous » 02 фев 2026, 22:31

Пример:

Код: Выделить всё

import polars as pl

df = pl.DataFrame({'a':[1,1,1,1,2,2,2,2],'b':[1,2,1,2,1,2,1,2],'c':[10,10,12,13,14,15,16,17]})
print(df)
output:
shape: (8, 3)
┌─────┬─────┬─────┐
│ a   ┆ b   ┆ c   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 1   ┆ 10  │
│ 1   ┆ 2   ┆ 10  │
│ 1   ┆ 1   ┆ 12  │
│ 1   ┆ 2   ┆ 13  │
│ 2   ┆ 1   ┆ 14  │
│ 2   ┆ 2   ┆ 15  │
│ 2   ┆ 1   ┆ 16  │
│ 2   ┆ 2   ┆ 17  │
└─────┴─────┴─────┘

Теперь я хочу найти частоту появления наиболее распространенного элемента в столбце c_bucket, где c_bucket — это pl.col("c").cut([11,14])
Я добился этого следующим образом:

Код: Выделить всё

df.select(pl.col("c").cut([11,14]).value_counts().sort().struct.field("count").first())
output:
shape: (1, 1)
┌───────┐
│ count │
│ ---   │
│ u32   │
╞═══════╡
│ 2     │
└───────┘

Пока все хорошо. Теперь я хочу сделать то же самое внутри group_by('a'). Я пробую следующий код:

Код: Выделить всё

df.group_by("a").agg(pl.col("c").cut([11,14]).value_counts().sort().struct.field("count").first())

Я получаю:

Код: Выделить всё

PanicException: called `Option::unwrap()` on a `None` value

Что я делаю не так, что получаю эту ошибку, и как правильно добиться того, чего я хочу?

Подробнее здесь: https://stackoverflow.com/questions/784 ... r-a-column

1770060674

Anonymous

Пример:
[code]import polars as pl

df = pl.DataFrame({'a':[1,1,1,1,2,2,2,2],'b':[1,2,1,2,1,2,1,2],'c':[10,10,12,13,14,15,16,17]})
print(df)
output:
shape: (8, 3)
┌─────┬─────┬─────┐
│ a   ┆ b   ┆ c   │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1   ┆ 1   ┆ 10  │
│ 1   ┆ 2   ┆ 10  │
│ 1   ┆ 1   ┆ 12  │
│ 1   ┆ 2   ┆ 13  │
│ 2   ┆ 1   ┆ 14  │
│ 2   ┆ 2   ┆ 15  │
│ 2   ┆ 1   ┆ 16  │
│ 2   ┆ 2   ┆ 17  │
└─────┴─────┴─────┘
[/code]
Теперь я хочу найти частоту появления наиболее распространенного элемента в столбце c_bucket, где c_bucket — это pl.col("c").cut([11,14])
Я добился этого следующим образом:
[code]df.select(pl.col("c").cut([11,14]).value_counts().sort().struct.field("count").first())
output:
shape: (1, 1)
┌───────┐
│ count │
│ ---   │
│ u32   │
╞═══════╡
│ 2     │
└───────┘
[/code]
Пока все хорошо. Теперь я хочу сделать то же самое внутри group_by('a'). Я пробую следующий код:
[code]df.group_by("a").agg(pl.col("c").cut([11,14]).value_counts().sort().struct.field("count").first())
[/code]
Я получаю:
[code]PanicException: called `Option::unwrap()` on a `None` value
[/code]
Что я делаю не так, что получаю эту ошибку, и как правильно добиться того, чего я хочу? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78457835/find-the-occurence-frequency-of-the-most-frequent-bucket-for-a-column[/url]