Множественные агрегации по нескольким столбцам в полярах Python

Множественные агрегации по нескольким столбцам в полярах Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Множественные агрегации по нескольким столбцам в полярах Python

Цитата

Сообщение Anonymous » 17 сен 2024, 03:08

Проверяя, как реализовать группирование с помощью полярных выражений Python, я могу легко вычислить агрегаты для отдельных столбцов:

Код: Выделить всё

import polars as pl
import numpy as np

t, v = np.arange(0, 100, 2), np.arange(0, 100, 2)
df = pl.DataFrame({"t": t, "v0": v, "v1": v})
df = df.with_columns((pl.datetime(2022,10,30) + pl.duration(seconds=df["t"])).alias("datetime")).drop("t")

df.group_by_dynamic("datetime", every="10s").agg(pl.col("v0").mean())

Код: Выделить всё

shape: (10, 2)
┌─────────────────────┬──────┐
│ datetime            ┆ v0   │
│ ---                 ┆ ---  │
│ datetime[μs]        ┆ f64  │
╞═════════════════════╪══════╡
│ 2022-10-30 00:00:00 ┆ 4.0  │
│ 2022-10-30 00:00:10 ┆ 14.0 │
│ 2022-10-30 00:00:20 ┆ 24.0 │
│ 2022-10-30 00:00:30 ┆ 34.0 │
│ ...                 ┆ ...  │

или вычислить несколько агрегатов, например

Код: Выделить всё

df.group_by_dynamic("datetime", every="10s").agg(
pl.col("v0").mean().alias("v0_binmean"),
pl.col("v0").count().alias("v0_bincount")
)
┌─────────────────────┬────────────┬─────────────┐
│ datetime            ┆ v0_binmean ┆ v0_bincount │
│ ---                 ┆ ---        ┆ ---         │
│ datetime[μs]        ┆ f64        ┆ u32         │
╞═════════════════════╪════════════╪═════════════╡
│ 2022-10-30 00:00:00 ┆ 4.0        ┆ 5           │
│ 2022-10-30 00:00:10 ┆ 14.0       ┆ 5           │
│ 2022-10-30 00:00:20 ┆ 24.0       ┆ 5           │
│ 2022-10-30 00:00:30 ┆ 34.0       ┆ 5           │
│ ...                 ┆ ...        ┆ ...         │

или рассчитайте одно агрегирование для нескольких столбцов, например

Код: Выделить всё

cols = [c for c in df.columns if "datetime" not in c]
df.group_by_dynamic("datetime", every="10s").agg(
pl.col(f"{c}").mean().alias(f"{c}_binmean")
for c in cols
)

┌─────────────────────┬────────────┬────────────┐
│ datetime            ┆ v0_binmean ┆ v1_binmean │
│ ---                 ┆ ---        ┆ ---        │
│ datetime[μs]        ┆ f64        ┆ f64        │
╞═════════════════════╪════════════╪════════════╡
│ 2022-10-30 00:00:00 ┆ 4.0        ┆ 4.0        │
│ 2022-10-30 00:00:10 ┆ 14.0       ┆ 14.0       │
│ 2022-10-30 00:00:20 ┆ 24.0       ┆ 24.0       │
│ 2022-10-30 00:00:30 ┆ 34.0       ┆ 34.0       │
│ ...                 ┆ ...        ┆ ...        │

Однако объединить оба подхода не получится!

Код: Выделить всё

df.group_by_dynamic("datetime", every="10s").agg(
[
pl.col(f"{c}").mean().alias(f"{c}_binmean"),
pl.col(f"{c}").count().alias(f"{c}_bincount")
]
for c in cols
)

Код: Выделить всё

DuplicateError: column with name 'literal' has more than one occurrences

Существует ли «полярный» подход для расчета нескольких статистических параметров для нескольких (всех) столбцов кадра данных за один раз?
связано, pandas -специфично: Python pandas группируется по нескольким столбцам

Подробнее здесь: https://stackoverflow.com/questions/749 ... hon-polars

1726531716

Anonymous

Проверяя, как реализовать группирование с помощью полярных выражений Python, я могу легко вычислить агрегаты для отдельных столбцов:
[code]import polars as pl
import numpy as np

t, v = np.arange(0, 100, 2), np.arange(0, 100, 2)
df = pl.DataFrame({"t": t, "v0": v, "v1": v})
df = df.with_columns((pl.datetime(2022,10,30) + pl.duration(seconds=df["t"])).alias("datetime")).drop("t")

df.group_by_dynamic("datetime", every="10s").agg(pl.col("v0").mean())
[/code]
[code]shape: (10, 2)
┌─────────────────────┬──────┐
│ datetime            ┆ v0   │
│ ---                 ┆ ---  │
│ datetime[μs]        ┆ f64  │
╞═════════════════════╪══════╡
│ 2022-10-30 00:00:00 ┆ 4.0  │
│ 2022-10-30 00:00:10 ┆ 14.0 │
│ 2022-10-30 00:00:20 ┆ 24.0 │
│ 2022-10-30 00:00:30 ┆ 34.0 │
│ ...                 ┆ ...  │
[/code]
или вычислить несколько агрегатов, например
[code]df.group_by_dynamic("datetime", every="10s").agg(
pl.col("v0").mean().alias("v0_binmean"),
pl.col("v0").count().alias("v0_bincount")
)
┌─────────────────────┬────────────┬─────────────┐
│ datetime            ┆ v0_binmean ┆ v0_bincount │
│ ---                 ┆ ---        ┆ ---         │
│ datetime[μs]        ┆ f64        ┆ u32         │
╞═════════════════════╪════════════╪═════════════╡
│ 2022-10-30 00:00:00 ┆ 4.0        ┆ 5           │
│ 2022-10-30 00:00:10 ┆ 14.0       ┆ 5           │
│ 2022-10-30 00:00:20 ┆ 24.0       ┆ 5           │
│ 2022-10-30 00:00:30 ┆ 34.0       ┆ 5           │
│ ...                 ┆ ...        ┆ ...         │
[/code]
или рассчитайте одно агрегирование для нескольких столбцов, например
[code]cols = [c for c in df.columns if "datetime" not in c]
df.group_by_dynamic("datetime", every="10s").agg(
pl.col(f"{c}").mean().alias(f"{c}_binmean")
for c in cols
)

┌─────────────────────┬────────────┬────────────┐
│ datetime            ┆ v0_binmean ┆ v1_binmean │
│ ---                 ┆ ---        ┆ ---        │
│ datetime[μs]        ┆ f64        ┆ f64        │
╞═════════════════════╪════════════╪════════════╡
│ 2022-10-30 00:00:00 ┆ 4.0        ┆ 4.0        │
│ 2022-10-30 00:00:10 ┆ 14.0       ┆ 14.0       │
│ 2022-10-30 00:00:20 ┆ 24.0       ┆ 24.0       │
│ 2022-10-30 00:00:30 ┆ 34.0       ┆ 34.0       │
│ ...                 ┆ ...        ┆ ...        │
[/code]
[b]Однако[/b] объединить оба подхода не получится!
[code]df.group_by_dynamic("datetime", every="10s").agg(
[
pl.col(f"{c}").mean().alias(f"{c}_binmean"),
pl.col(f"{c}").count().alias(f"{c}_bincount")
]
for c in cols
)
[/code]
[code]DuplicateError: column with name 'literal' has more than one occurrences
[/code]
Существует ли «полярный» подход для расчета нескольких статистических параметров для нескольких (всех) столбцов кадра данных за один раз?
связано, pandas -специфично: Python pandas группируется по нескольким столбцам 

Подробнее здесь: [url]https://stackoverflow.com/questions/74902695/multiple-aggregations-on-multiple-columns-in-python-polars[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Группа по нескольким столбцам и агрегации на индивидуальной агрегации парфюмерии

Последнее сообщение Anonymous « 16 авг 2025, 14:47
Добавлено в форуме Python

Anonymous » 16 авг 2025, 14:47 » в форуме Python

У меня есть этот рамка данных, у которого есть несколько идентификаторов и facid. Я хочу группировать по трем столбцам и применить пользовательскую функцию или использовать встроенную функцию pivot, чтобы получить ожидаемый выход.
вход такой
df1 =...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
16 авг 2025, 14:47
Группировать по столбцам и распределять значения по нескольким столбцам на основе значения [дубликат]

Последнее сообщение Anonymous « 12 ноя 2024, 18:49
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 18:49 » в форуме Python

Я хочу выполнить операцию, при которой значения столбца распределяются по новым столбцам на основе тех же значений в другом столбце. См. пример ниже
import pandas as pd
pd.DataFrame({'A': , 'B': })

A B
0 a x1
1 a x2
2 b x3
3 b x4

Я хочу...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 18:49
Издевающийся конвейер агрегации в тесте SpringBoot завершается с ошибкой «Конвейер агрегации не должен быть нулевым»

Последнее сообщение Anonymous « 23 окт 2024, 14:25
Добавлено в форуме JAVA

Anonymous » 23 окт 2024, 14:25 » в форуме JAVA

Я работаю над тестированием агрегации MongoDB в сервисном классе Spring Boot. Тестовый класс использует Mockito для имитации операции агрегации, но при запуске теста возникает ошибка. В частности, в сообщении об ошибке говорится: «Конвейер агрегации...

0 Ответы

218 Просмотры

Последнее сообщение Anonymous
23 окт 2024, 14:25
Агрегации Elasticsearch: попытка использовать сортировку по алфавиту в агрегации терминов

Последнее сообщение Anonymous « 05 дек 2024, 03:08
Добавлено в форуме Elasticsearch aggregation

Anonymous » 05 дек 2024, 03:08 » в форуме Elasticsearch aggregation

Сейчас я использую Elasticsearch 8.15. Я немного запутался, пытаясь добиться сортировки строк по внешнему и внутреннему сегменту (отсортировано по возрастанию или убыванию в алфавитном порядке). Мой индекс опасность выглядит примерно так:
{
hazards...

0 Ответы

1005 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 03:08
Функция агрегации, затем имя столбца по сравнению с именем столбца, затем функция агрегации после группы Pandas [закрыто

Последнее сообщение Anonymous « 11 дек 2024, 22:55
Добавлено в форуме Python

Anonymous » 11 дек 2024, 22:55 » в форуме Python

У меня был скрипт Python/Pandas, который работал до обновления до Python 3.9, но теперь завершается с ошибкой ValueError: Неверное количество переданных элементов в этом операторе:
newdf = olddf[(olddf == 'A')].groupby( ).max() .reset_index()[ ]...

0 Ответы

174 Просмотры

Последнее сообщение Anonymous
11 дек 2024, 22:55

Вернуться в «Python»