Прокатка group_by, но усечение каждого значения в полночь

Прокатка group_by, но усечение каждого значения в полночь ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Прокатка group_by, но усечение каждого значения в полночь

Цитата

Сообщение Anonymous » 19 окт 2024, 16:12

Скажем, у меня есть следующий DataFrame:
import polars as pl
import numpy as np
from datetime import datetime

df = pl.DataFrame({'ts': pl.datetime_range(datetime(2020, 1, 1), datetime(2020, 1, 10), '1h', eager=True)})
df = df.with_columns(value=pl.Series(np.arange(len(df))))

In [62]: df
Out[62]:
shape: (217, 2)
┌─────────────────────┬───────┐
│ ts ┆ value │
│ --- ┆ --- │
│ datetime[μs] ┆ i64 │
╞═════════════════════╪═══════╡
│ 2020-01-01 00:00:00 ┆ 0 │
│ 2020-01-01 01:00:00 ┆ 1 │
│ 2020-01-01 02:00:00 ┆ 2 │
│ 2020-01-01 03:00:00 ┆ 3 │
│ … ┆ … │
│ 2020-01-09 21:00:00 ┆ 213 │
│ 2020-01-09 22:00:00 ┆ 214 │
│ 2020-01-09 23:00:00 ┆ 215 │
│ 2020-01-10 00:00:00 ┆ 216 │
└─────────────────────┴───────┘

Что я хотел бы получить для каждой строки:

рассмотреть все строки, которые находятся между 3 днями раньше и в полночь того же дня
вычислите среднее значение

Так, например, для строки 2020- 01-09 23:00:00, я хотел бы рассмотреть строки, где ts больше или равно 2020-01-06 00:00:00 и меньше 2020- 01-09 00:00:00 и возьмите среднее значение столбца «значение».
Ожидаемый результат:
shape: (217, 2)
┌─────────────────────┬───────┐
│ ts ┆ value │
│ --- ┆ --- │
│ datetime[μs] ┆ i64 │
╞═════════════════════╪═══════╡
│ 2020-01-01 00:00:00 ┆ null │
│ 2020-01-01 01:00:00 ┆ null │
│ 2020-01-01 02:00:00 ┆ null │
│ 2020-01-01 03:00:00 ┆ null │
│ … ┆ … │
│ 2020-01-09 21:00:00 ┆ 155.5 │
│ 2020-01-09 22:00:00 ┆ 155.5 │
│ 2020-01-09 23:00:00 ┆ 155.5 │
│ 2020-01-10 00:00:00 ┆ 179.5 │
└─────────────────────┴───────┘

Как я рассчитал ожидаемый результат:
df.filter(
(pl.col("ts") >= datetime(2020, 1, 6)) & (pl.col("ts") < datetime(2020, 1, 9))
).mean()
df.filter(
(pl.col("ts") >= datetime(2020, 1, 7)) & (pl.col("ts") < datetime(2020, 1, 10))
).mean()

Подробнее здесь: https://stackoverflow.com/questions/760 ... t-midnight

1729343567

Anonymous

Скажем, у меня есть следующий DataFrame:
import polars as pl
import numpy as np
from datetime import datetime

df = pl.DataFrame({'ts': pl.datetime_range(datetime(2020, 1, 1), datetime(2020, 1, 10), '1h', eager=True)})
df = df.with_columns(value=pl.Series(np.arange(len(df))))

In [62]: df
Out[62]:
shape: (217, 2)
┌─────────────────────┬───────┐
│ ts                  ┆ value │
│ ---                 ┆ ---   │
│ datetime[μs]        ┆ i64   │
╞═════════════════════╪═══════╡
│ 2020-01-01 00:00:00 ┆ 0     │
│ 2020-01-01 01:00:00 ┆ 1     │
│ 2020-01-01 02:00:00 ┆ 2     │
│ 2020-01-01 03:00:00 ┆ 3     │
│ …                   ┆ …     │
│ 2020-01-09 21:00:00 ┆ 213   │
│ 2020-01-09 22:00:00 ┆ 214   │
│ 2020-01-09 23:00:00 ┆ 215   │
│ 2020-01-10 00:00:00 ┆ 216   │
└─────────────────────┴───────┘

Что я хотел бы получить для каждой строки:
[list]
[*]рассмотреть все строки, которые находятся между 3 днями раньше и в полночь того же дня
[*]вычислите среднее значение
[/list]
Так, например, для строки 2020- 01-09 23:00:00, я хотел бы рассмотреть строки, где ts больше или равно 2020-01-06 00:00:00 и меньше 2020- 01-09 00:00:00 и возьмите среднее значение столбца «значение».
Ожидаемый результат:
shape: (217, 2)
┌─────────────────────┬───────┐
│ ts                  ┆ value │
│ ---                 ┆ ---   │
│ datetime[μs]        ┆ i64   │
╞═════════════════════╪═══════╡
│ 2020-01-01 00:00:00 ┆ null  │
│ 2020-01-01 01:00:00 ┆ null  │
│ 2020-01-01 02:00:00 ┆ null  │
│ 2020-01-01 03:00:00 ┆ null  │
│ …                   ┆ …     │
│ 2020-01-09 21:00:00 ┆ 155.5 │
│ 2020-01-09 22:00:00 ┆ 155.5 │
│ 2020-01-09 23:00:00 ┆ 155.5 │
│ 2020-01-10 00:00:00 ┆ 179.5 │
└─────────────────────┴───────┘

Как я рассчитал ожидаемый результат:
df.filter(
(pl.col("ts") >= datetime(2020, 1, 6)) & (pl.col("ts") < datetime(2020, 1, 9))
).mean()
df.filter(
(pl.col("ts") >= datetime(2020, 1, 7)) & (pl.col("ts") < datetime(2020, 1, 10))
).mean()
 

Подробнее здесь: [url]https://stackoverflow.com/questions/76062929/rolling-group-by-but-truncating-each-value-at-midnight[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как создать объект Java Date в полночь сегодня и в полночь завтра?

Последнее сообщение Anonymous « 29 июл 2024, 22:40
Добавлено в форуме JAVA

Anonymous » 29 июл 2024, 22:40 » в форуме JAVA

В моем коде мне нужно найти все события, которые произошли сегодня. Поэтому мне нужно сравнить даты с 00:00 сегодняшнего дня (сегодняшняя полночь рано утром) до 12:00 (сегодняшняя полночь).
Я знаю...
Date today = new Date();

... меня сейчас поймет....

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
29 июл 2024, 22:40
Pandas ежемесячная прокатка

Последнее сообщение Anonymous « 18 сен 2024, 22:53
Добавлено в форуме Python

Anonymous » 18 сен 2024, 22:53 » в форуме Python

Я понял это, когда писал этот вопрос, поэтому все равно просто опубликую и отвечу на свой вопрос на случай, если кому-то еще понадобится небольшая помощь.

Проблема

Предположим, у нас есть DataFrame, df, содержащий эти данные.

import pandas as...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 22:53
Объект 'nonetype' не имеет атрибута 'Group' Group 'Создание пакета с кликом

Последнее сообщение Anonymous « 21 июн 2025, 19:15
Добавлено в форуме Python

Anonymous » 21 июн 2025, 19:15 » в форуме Python

Привет, я пытаюсь создать пакет Python, у меня есть следующая структура папок
.
├── Dockerfile
├── entrypoint.sh
├── Pipfile
├── Pipfile.lock
├── setup.py
└── vms-backup
├── commands
│ ├── __init__.py
│ ├── to_csv.py
│ ├── to_sql.py
│ └──...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
21 июн 2025, 19:15
По неизвестной причине служба Apache2 перезапускается каждую полночь (Ubuntu 20.24) [закрыто]

Последнее сообщение Anonymous « 24 окт 2023, 06:18
Добавлено в форуме Linux

Anonymous » 24 окт 2023, 06:18 » в форуме Linux

Недавно я узнал, что служба Apache2 перезапускается каждую полночь.

это часть моего журнала ошибок apache2

: Сигнал получен. Грамотное завершение работы... (отправьте сигнал еще 2 раза для принудительного завершения работы) : получена команда...

0 Ответы

82 Просмотры

Последнее сообщение Anonymous
24 окт 2023, 06:18
Необычный всплеск количества потоков каждую полночь в приложении Spring Boot

Последнее сообщение Anonymous « 18 мар 2024, 05:36
Добавлено в форуме JAVA

Anonymous » 18 мар 2024, 05:36 » в форуме JAVA

Контекст приложения . В настоящее время мы развертываем приложение на основе Spring-boot:3.2.0, которое включает в себя API-интерфейсы на основе REST, предоставляемые клиентам с помощью Spring-boot-starter-web , интеграция с нашим хранилищем данных...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
18 мар 2024, 05:36

Вернуться в «Python»