Как я могу выполнить набор функций для всех столбцов в кадре данных Polars? - Цифровое Кемерово

Как я могу выполнить набор функций для всех столбцов в кадре данных Polars? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как я могу выполнить набор функций для всех столбцов в кадре данных Polars?

Цитата

Сообщение Anonymous » 04 ноя 2025, 02:06

Я пытаюсь выполнить несколько операций со всеми столбцами в кадре данных Polars, используя функцию pl.all.

Код: Выделить всё

df = pl.DataFrame(
{"a": [1, 2, 3], "b": [4, 5, 6], "c": [1, 1, 1]}
)

В настоящее время я использую этот код:

Код: Выделить всё

def col_operations(column: pl.Series):
col_stats = {
"count_unique": column.n_unique(),
"count_nans": column.null_count(),
"nan_frac": column.null_count()/len(column)
}

return col_stats

def profile(df: pl.DataFrame):
profiling_dict = {}
for col in df.columns:
profiling_dict[col] = col_operations(df[col])

return pd.DataFrame(profiling_dict) # NOTE: pandas

profile(df)

который возвращает то, что я хочу видеть:

Код: Выделить всё

                a   b   c
count_unique    3.0 3.0 1.0
count_nans      0.0 0.0 0.0
nan_frac        0.0 0.0 0.0

Однако в моем реальном случае использования я работаю над таблицами, которые могут иметь ~15 столбцов и потенциально миллионы строк, поэтому я ищу что-то более быстрое, чем то, что я придумал.
Я пытался использовать pl.all в качестве аргумента df.select, но получаю ошибку.

Код: Выделить всё

df.select(pl.all().sum(), pl.all().mean())

Код: Выделить всё

# DuplicateError: the name 'a' is duplicate

Похоже, добавление суффикса работает:

Код: Выделить всё

df.select(pl.all().sum().name.suffix("_sum"), pl.all().first().name.suffix("_first"))

Код: Выделить всё

shape: (1, 6)
┌───────┬───────┬───────┬─────────┬─────────┬─────────┐
│ a_sum ┆ b_sum ┆ c_sum ┆ a_first ┆ b_first ┆ c_first │
│ ---   ┆ ---   ┆ ---   ┆ ---     ┆ ---     ┆ ---     │
│ i64   ┆ i64   ┆ i64   ┆ i64     ┆ i64     ┆ i64     │
╞═══════╪═══════╪═══════╪═════════╪═════════╪═════════╡
│ 6     ┆ 15    ┆ 3     ┆ 1       ┆ 4       ┆ 1       │
└───────┴───────┴───────┴─────────┴─────────┴─────────┘

Это то, что я хочу видеть, однако я бы предпочел использовать такой формат в первом примере.
С Pandas я могу сделать это с помощью .apply:

Код: Выделить всё

def col_operations(column: pd.Series):
col_stats = {
"count_unique": column.nunique(),
"count_nans": column.isna().sum(),
"nan_frac": column.isna().sum()/len(column)
}

return pd.Series(col_stats)

Код: Выделить всё

df.to_pandas().apply(col_operations, axis=0)

Код: Выделить всё

                a    b    c
count_unique  3.0  3.0  1.0
count_nans    0.0  0.0  0.0
nan_frac      0.0  0.0  0.0

Можно ли это каким-то образом сделать с помощью Polars?

Подробнее здесь: https://stackoverflow.com/questions/758 ... -dataframe

1762211160

Anonymous

Я пытаюсь выполнить несколько операций со всеми столбцами в кадре данных Polars, используя функцию pl.all.
[code]df = pl.DataFrame(
{"a": [1, 2, 3], "b": [4, 5, 6], "c": [1, 1, 1]}
)
[/code]
В настоящее время я использую этот код:
[code]def col_operations(column: pl.Series):
col_stats = {
"count_unique": column.n_unique(),
"count_nans": column.null_count(),
"nan_frac": column.null_count()/len(column)
}

return col_stats

def profile(df: pl.DataFrame):
profiling_dict = {}
for col in df.columns:
profiling_dict[col] = col_operations(df[col])

return pd.DataFrame(profiling_dict) # NOTE: pandas

profile(df)
[/code]
который возвращает то, что я хочу видеть:
[code]                a   b   c
count_unique    3.0 3.0 1.0
count_nans      0.0 0.0 0.0
nan_frac        0.0 0.0 0.0
[/code]
Однако в моем реальном случае использования я работаю над таблицами, которые могут иметь ~15 столбцов и потенциально миллионы строк, поэтому я ищу что-то более быстрое, чем то, что я придумал.
Я пытался использовать pl.all в качестве аргумента df.select, но получаю ошибку.
[code]df.select(pl.all().sum(), pl.all().mean())
[/code]
[code]# DuplicateError: the name 'a' is duplicate
[/code]
Похоже, добавление суффикса работает:
[code]df.select(pl.all().sum().name.suffix("_sum"), pl.all().first().name.suffix("_first"))
[/code]
[code]shape: (1, 6)
┌───────┬───────┬───────┬─────────┬─────────┬─────────┐
│ a_sum ┆ b_sum ┆ c_sum ┆ a_first ┆ b_first ┆ c_first │
│ ---   ┆ ---   ┆ ---   ┆ ---     ┆ ---     ┆ ---     │
│ i64   ┆ i64   ┆ i64   ┆ i64     ┆ i64     ┆ i64     │
╞═══════╪═══════╪═══════╪═════════╪═════════╪═════════╡
│ 6     ┆ 15    ┆ 3     ┆ 1       ┆ 4       ┆ 1       │
└───────┴───────┴───────┴─────────┴─────────┴─────────┘
[/code]
Это то, что я хочу видеть, однако я бы предпочел использовать такой формат в первом примере.
С Pandas я могу сделать это с помощью .apply:
[code]def col_operations(column: pd.Series):
col_stats = {
"count_unique": column.nunique(),
"count_nans": column.isna().sum(),
"nan_frac": column.isna().sum()/len(column)
}

return pd.Series(col_stats)
[/code]
[code]df.to_pandas().apply(col_operations, axis=0)
[/code]
[code]                a    b    c
count_unique  3.0  3.0  1.0
count_nans    0.0  0.0  0.0
nan_frac      0.0  0.0  0.0
[/code]
Можно ли это каким-то образом сделать с помощью Polars?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/75889887/how-can-i-execute-a-set-of-functions-on-all-columns-in-a-polars-dataframe[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»