Polars: заполните недостающие месяцы для каждой группы.

Polars: заполните недостающие месяцы для каждой группы. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Polars: заполните недостающие месяцы для каждой группы.

Цитата

Сообщение Anonymous » 01 окт 2024, 00:21

Я хочу заполнить недостающие месяцы в фрейме данных для каждой группы на основе минимальной и максимальной даты в каждой группе.
Этот подход работает, но использует Polars.map_elements .

Код: Выделить всё

import polars as pl
import numpy as np
from datetime import date

DATA_SIZE = 10000000
raw_df = pl.DataFrame({
"id": np.random.choice(range(0, 10000), DATA_SIZE),
"date": pl.date_range(date(1940, 1, 1), date(2020, 1, 1), interval="1mo", eager=True).sample(DATA_SIZE, with_replacement=True),
"value": np.random.rand(DATA_SIZE)
})

clean_df = (raw_df
.group_by("id")
.agg(
pl.struct(pl.col("date").min().alias("startDate"), pl.col("date").max().alias("endDate"))
.map_elements(lambda row: pl.date_range(row["startDate"], row["endDate"], interval="1mo", eager=True)).alias("date")
)
.explode("date")
.join(raw_df, how="left", on=["id", "date"])
.with_columns(pl.col("value").fill_null(0))
)

Теперь, когда date_range принимает выражения, должно быть более элегантное и быстрое решение, но я не могу заставить его работать: TypeError: невозможно создать литерал выражения для значения типа встроенная_функция_или_метод.

Код: Выделить всё

(raw_df
.group_by("id")
.agg(
pl.col("date").min().alias("startDate"), pl.col("date").max().alias("endDate")
)
.select(
id, pl.date_range(pl.col("startDate"), pl.col("endDate"), interval="1mo")
)
)

Как использовать диапазон дат с выражениями?

Подробнее здесь: https://stackoverflow.com/questions/740 ... -per-group

1727731272

Anonymous

Я хочу заполнить недостающие месяцы в фрейме данных для каждой группы на основе минимальной и максимальной даты в каждой группе.
Этот подход работает, но использует Polars.map_elements .
[code]import polars as pl
import numpy as np
from datetime import date

DATA_SIZE = 10000000
raw_df = pl.DataFrame({
"id": np.random.choice(range(0, 10000), DATA_SIZE),
"date": pl.date_range(date(1940, 1, 1), date(2020, 1, 1), interval="1mo", eager=True).sample(DATA_SIZE, with_replacement=True),
"value": np.random.rand(DATA_SIZE)
})

clean_df = (raw_df
.group_by("id")
.agg(
pl.struct(pl.col("date").min().alias("startDate"), pl.col("date").max().alias("endDate"))
.map_elements(lambda row: pl.date_range(row["startDate"], row["endDate"], interval="1mo", eager=True)).alias("date")
)
.explode("date")
.join(raw_df, how="left", on=["id", "date"])
.with_columns(pl.col("value").fill_null(0))
)
[/code]
Теперь, когда date_range принимает выражения, должно быть более элегантное и быстрое решение, но я не могу заставить его работать: TypeError: невозможно создать литерал выражения для значения типа встроенная_функция_или_метод. 
[code](raw_df
.group_by("id")
.agg(
pl.col("date").min().alias("startDate"), pl.col("date").max().alias("endDate")
)
.select(
id, pl.date_range(pl.col("startDate"), pl.col("endDate"), interval="1mo")
)
)
[/code]
Как использовать диапазон дат с выражениями? 

Подробнее здесь: [url]https://stackoverflow.com/questions/74017176/polars-fill-missing-months-per-group[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как сравнить периоды времени (месяцы), когда месяцы могут иметь разные длины

Последнее сообщение Anonymous « 15 мар 2025, 18:49
Добавлено в форуме Php

Anonymous » 15 мар 2025, 18:49 » в форуме Php

Работая на фронте DWH Я смотрю на возможность разумно сравнить определенные периоды времени с предыдущими годами. />
Я не ищу предложения SQL, как выбрать и собирать числа за определенный период, я могу справиться с этим. Только как выбрать даты в...

0 Ответы

195 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 18:49
Как сравнить периоды времени (месяцы), когда месяцы могут иметь разные длины

Последнее сообщение Anonymous « 15 мар 2025, 19:21
Добавлено в форуме Php

Anonymous » 15 мар 2025, 19:21 » в форуме Php

Работая на фронте DWH Я смотрю на возможность разумно сравнить определенные периоды времени с предыдущими годами. />
Я не ищу предложения SQL, как выбрать и собирать числа за определенный период, я могу справиться с этим. Только как выбрать даты в...

0 Ответы

230 Просмотры

Последнее сообщение Anonymous
15 мар 2025, 19:21
Как вставить недостающие месяцы из массива в Laravel?

Последнее сообщение Anonymous « 05 дек 2024, 07:14
Добавлено в форуме Php

Anonymous » 05 дек 2024, 07:14 » в форуме Php

У меня есть запрос, который возвращает статус для каждого месяца, когда я пытаюсь использовать dd($attr ), это вернет массив этого но, судя по тому, что я проверил, кажется, что несколько месяцев пропущены.
private function getSummaryData($seller)...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 07:14
Возьмите элементы из каждой группы в Polars, где группы неравномерны.

Последнее сообщение Anonymous « 01 окт 2024, 12:51
Добавлено в форуме Python

Anonymous » 01 окт 2024, 12:51 » в форуме Python

Как взять первые n элементов группы, где n > G и G = количество элементов в группе?
Например,
import polars as pl
df = pl.DataFrame(dict(x= , y= ))
df.group_by( x ).agg(pl.all().gather( ))

Приведенный выше пример возвращает ошибку...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 12:51
Pandas Groupby Несколько столбцов, агрегируйте некоторые столбцы, добавьте столбец каждой группы каждой группы

Последнее сообщение Anonymous « 19 фев 2025, 12:51
Добавлено в форуме Python

Anonymous » 19 фев 2025, 12:51 » в форуме Python

Данные, с которыми я работаю:
data (140631115432592), ndim: 2, size: 3947910, shape: (232230, 17)
VIN (1-10) object
County object
City object
State object
Postal Code float64
Model Year int64
Make object
Model object
Electric Vehicle Type object...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 12:51

Вернуться в «Python»