Подсчет всех «-1» и -1 в кадре данных для списка определенных столбцов

Подсчет всех «-1» и -1 в кадре данных для списка определенных столбцов ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Подсчет всех «-1» и -1 в кадре данных для списка определенных столбцов

Цитата

Сообщение Anonymous » 02 ноя 2025, 19:33

У меня есть фрейм данных Polars, и для некоторых столбцов я хочу подсчитать количество «-1» (если символ) и -1 (если число). Мне бы хотелось сделать этот запрос действительно быстрым, поэтому я очень заинтересован в изучении правильного кода Polars, чтобы он работал очень быстро.

Код: Выделить всё

import polars as pl
import polars.selectors as cs
import numpy as np

df = pl.DataFrame( {"int_1": [1, 2, 3, -1, 5],
"char_1": ["foo", "ham", "spam", "egg", "-1"],
"not_of_interest": np.random.rand(5),
"groups": ["A", "A", "B", "C", "B"],
"int_2": [12, 12, 13, 14, 15]
}
)

Желаемый фрейм данных выглядит следующим образом:

Код: Выделить всё

shape: (3, 4)
┌────────┬───────┬───────┬────────┐
│ groups ┆ int_1 ┆ int_2 ┆ char_1 │
│ ---    ┆ ---   ┆ ---   ┆ ---    │
│ str    ┆ i64   ┆ i64   ┆ i64    │
╞════════╪═══════╪═══════╪════════╡
│ B      ┆ 0     ┆ 0     ┆ 1      │
│ C      ┆ 1     ┆ 0     ┆ 0      │
│ A      ┆ 0     ┆ 0     ┆ 0      │
└────────┴───────┴───────┴────────┘

Моя попытка на данный момент:

Код: Выделить всё

df.select(cs.numeric() | cs.by_name("groups")) \
.group_by("groups").agg((pl.col("*") == pl.lit(-1)).sum())

df.select(cs.string() | cs.by_name("groups")) \
.group_by("groups").agg((pl.col("*") == pl.lit("-1")).sum())

Тогда я мог бы объединить эти две таблицы, но я хочу сделать это в одном запросе.
Я также хотел бы определить два списка: один для переменных, которые нужно группировать, а другой - набор переменных, для которых мне интересно найти -1, чтобы мне не приходилось жестко запрограммировать «группы», но я действительно не уверен, является ли то, что я делаю, хорошим кодом или нет:

Код: Выделить всё

cols_to_check = ['int_1', 'int_2', 'char_1']
group_cols = ['groups']

df.select((cs.string() & cs.by_name(*cols_to_check)) | cs.by_name(*group_cols)) \
.group_by(group_cols).agg((pl.col("*") == pl.lit("-1")).sum())

df.select((cs.numeric() & cs.by_name(*cols_to_check)) | cs.by_name(*group_cols)) \
.group_by(group_cols).agg((pl.col("*") == pl.lit(-1)).sum())

РЕДАКТИРОВАТЬ: думаю, мне это удалось.

Код: Выделить всё

# attempt:
df.group_by(group_cols).agg(((cs.numeric() & cs.by_name(*[cols_to_check])) == -1).sum(),
((cs.string() & cs.by_name(*[cols_to_check])) == "-1").sum())

Честно говоря, я не знал, что это сработает. Наверное, мне не хватает понимания того, когда можно использовать селекторы столбцов...

Подробнее здесь: https://stackoverflow.com/questions/790 ... in-columns

1762101193

Anonymous

У меня есть фрейм данных Polars, и для некоторых столбцов я хочу подсчитать количество «-1» (если символ) и -1 (если число). Мне бы хотелось сделать этот запрос действительно быстрым, поэтому я очень заинтересован в изучении правильного кода Polars, чтобы он работал очень быстро.
[code]import polars as pl
import polars.selectors as cs
import numpy as np

df = pl.DataFrame( {"int_1": [1, 2, 3, -1, 5],
"char_1": ["foo", "ham", "spam", "egg", "-1"],
"not_of_interest": np.random.rand(5),
"groups": ["A", "A", "B", "C", "B"],
"int_2": [12, 12, 13, 14, 15]
}
)
[/code]
Желаемый фрейм данных выглядит следующим образом:
[code]shape: (3, 4)
┌────────┬───────┬───────┬────────┐
│ groups ┆ int_1 ┆ int_2 ┆ char_1 │
│ ---    ┆ ---   ┆ ---   ┆ ---    │
│ str    ┆ i64   ┆ i64   ┆ i64    │
╞════════╪═══════╪═══════╪════════╡
│ B      ┆ 0     ┆ 0     ┆ 1      │
│ C      ┆ 1     ┆ 0     ┆ 0      │
│ A      ┆ 0     ┆ 0     ┆ 0      │
└────────┴───────┴───────┴────────┘
[/code]
Моя попытка на данный момент:
[code]df.select(cs.numeric() | cs.by_name("groups")) \
.group_by("groups").agg((pl.col("*") == pl.lit(-1)).sum())

df.select(cs.string() | cs.by_name("groups")) \
.group_by("groups").agg((pl.col("*") == pl.lit("-1")).sum())
[/code]
Тогда я мог бы объединить эти две таблицы, но я хочу сделать это в одном запросе.
Я также хотел бы определить два списка: один для переменных, которые нужно группировать, а другой - набор переменных, для которых мне интересно найти -1, чтобы мне не приходилось жестко запрограммировать «группы», но я действительно не уверен, является ли то, что я делаю, хорошим кодом или нет:
[code]cols_to_check = ['int_1', 'int_2', 'char_1']
group_cols = ['groups']

df.select((cs.string() & cs.by_name(*cols_to_check)) | cs.by_name(*group_cols)) \
.group_by(group_cols).agg((pl.col("*") == pl.lit("-1")).sum())

df.select((cs.numeric() & cs.by_name(*cols_to_check)) | cs.by_name(*group_cols)) \
.group_by(group_cols).agg((pl.col("*") == pl.lit(-1)).sum())
[/code]
[b]РЕДАКТИРОВАТЬ[/b]: думаю, мне это удалось.
[code]# attempt:
df.group_by(group_cols).agg(((cs.numeric() & cs.by_name(*[cols_to_check])) == -1).sum(),
((cs.string() & cs.by_name(*[cols_to_check])) == "-1").sum())
[/code]
Честно говоря, я не знал, что это сработает. Наверное, мне не хватает понимания того, когда можно использовать селекторы столбцов...
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79036753/counting-all-1-and-1-in-a-dataframe-for-a-list-of-certain-columns[/url]