Полярные значения: заполните нуль, используя «правило трех» на основе отфильтрованного набора.

Полярные значения: заполните нуль, используя «правило трех» на основе отфильтрованного набора. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Полярные значения: заполните нуль, используя «правило трех» на основе отфильтрованного набора.

Цитата

Сообщение Anonymous » 12 окт 2024, 20:34

Цель
Я хочу заполнить нули в серии, распределив разницу между следующим ненулевым и предыдущим ненулевым значением. Распределение не является линейным, но для расчета порционирования используются значения из другого столбца.
Пример

Код: Выделить всё

df = pl.DataFrame({
"id": ["a", "a", "a", "b", "b", "b", "b", "b"],
"timestamp": ["2023-09-13 14:05:34", "2023-09-13 14:15:04", "2023-09-13 14:30:01", "2023-09-13 12:12:02", "2023-09-13 12:15:02", "2023-09-13 12:30:07", "2023-09-13 12:45:01", "2023-09-13 13:00:02"],
"value": [10, None, 30, 5, 10, None, None, 40]
}).with_columns(
pl.col("timestamp").str.to_datetime(),
)

shape: (8, 3)
┌─────┬─────────────────────┬───────┐
│ id  ┆ timestamp           ┆ value │
│ --- ┆ ---                 ┆ ---   │
│ str ┆ datetime[μs]        ┆ i64   │
╞═════╪═════════════════════╪═══════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10    │
│ a   ┆ 2023-09-13 14:15:04 ┆ null  │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30    │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5     │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10    │
│ b   ┆ 2023-09-13 12:30:07 ┆ null  │
│ b   ┆ 2023-09-13 12:45:01 ┆ null  │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40    │
└─────┴─────────────────────┴───────┘

Ожидаемый результат (с некоторыми промежуточными столбцами, показывающими, как он рассчитывается)

Код: Выделить всё

shape: (8, 9)
┌─────┬─────────────────────┬───────┬───────────┬────────────┬────────────────┬─────────┬────────────┬───────┐
│ id  ┆ timestamp           ┆ value ┆ gap value ┆ gap time s ┆ gap proportion ┆ portion ┆ fill value ┆ final │
│ --- ┆ ---                 ┆ ---   ┆ ---       ┆ ---        ┆ ---            ┆ ---     ┆ ---        ┆ ---   │
│ str ┆ datetime[ns]        ┆ str   ┆ f64       ┆ f64        ┆ f64            ┆ f64     ┆ f64        ┆ f64   │
╞═════╪═════════════════════╪═══════╪═══════════╪════════════╪════════════════╪═════════╪════════════╪═══════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 10.0  │
│ a   ┆ 2023-09-13 14:15:04 ┆ null  ┆ 20.0      ┆ 1467.0     ┆ 570.0          ┆ 7.77    ┆ 17.77      ┆ 17.77 │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 30.0  │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5     ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 5.0   │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 10.0  │
│ b   ┆ 2023-09-13 12:30:07 ┆ null  ┆ 30.0      ┆ 2700.0     ┆ 905.0          ┆ 10.06   ┆ 20.06      ┆ 20.06 │
│ b   ┆ 2023-09-13 12:45:01 ┆ null  ┆ 30.0      ┆ 2700.0     ┆ 1799.0         ┆ 19.99   ┆ 29.99      ┆ 29.99 │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 40.0  │
└─────┴─────────────────────┴───────┴───────────┴────────────┴────────────────┴─────────┴────────────┴───────┘

Как работает этот расчет

В качестве примера я возьму группу «b».
< ul>
[*]Есть 2 строки с нулями, которые необходимо заполнить.
[*]разница между следующим и предыдущим значением составляет 30 ( 40 - 10 )
[*]разница во времени между следующим и предыдущим значением составляет 2700 секунд (13:00:02 - 12:15:02)
[*]для первой пустой строки Разница во времени составляет 905 секунд (12:30:07 - 12:15:02). Таким образом, этой строке присваивается часть 30 * ( 905 / 2700 ), назначенная (10.06)
[*]поэтому при ее заполнении значение заполнения равно 10 + 10.06
[*] следующая пустая строка получает часть 30 * ( 1799 / 2700 ) (19,99), поэтому ее значение заполнения равно 10 + 19,99.

Спасибо за помощь. Я новичок как в Polars, так и в Python, поэтому мой ум, ориентированный на SQL, все еще обдумывает все это.
Лично я считаю, что это было бы отличным дополнением к fill_null, чтобы иметь возможность использовать правило трех с использованием другого столбца для пропорциональности
Спасибо

Подробнее здесь: https://stackoverflow.com/questions/770 ... ltered-set

1728754472

Anonymous

[b]Цель[/b]
Я хочу заполнить нули в серии, распределив разницу между следующим ненулевым и предыдущим ненулевым значением. Распределение не является линейным, но для расчета порционирования используются значения из другого столбца.
[b]Пример[/b]
[code]df = pl.DataFrame({
"id": ["a", "a", "a", "b", "b", "b", "b", "b"],
"timestamp": ["2023-09-13 14:05:34", "2023-09-13 14:15:04", "2023-09-13 14:30:01", "2023-09-13 12:12:02", "2023-09-13 12:15:02", "2023-09-13 12:30:07", "2023-09-13 12:45:01", "2023-09-13 13:00:02"],
"value": [10, None, 30, 5, 10, None, None, 40]
}).with_columns(
pl.col("timestamp").str.to_datetime(),
)

shape: (8, 3)
┌─────┬─────────────────────┬───────┐
│ id  ┆ timestamp           ┆ value │
│ --- ┆ ---                 ┆ ---   │
│ str ┆ datetime[μs]        ┆ i64   │
╞═════╪═════════════════════╪═══════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10    │
│ a   ┆ 2023-09-13 14:15:04 ┆ null  │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30    │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5     │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10    │
│ b   ┆ 2023-09-13 12:30:07 ┆ null  │
│ b   ┆ 2023-09-13 12:45:01 ┆ null  │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40    │
└─────┴─────────────────────┴───────┘
[/code]
Ожидаемый результат (с некоторыми промежуточными столбцами, показывающими, как он рассчитывается)
[code]shape: (8, 9)
┌─────┬─────────────────────┬───────┬───────────┬────────────┬────────────────┬─────────┬────────────┬───────┐
│ id  ┆ timestamp           ┆ value ┆ gap value ┆ gap time s ┆ gap proportion ┆ portion ┆ fill value ┆ final │
│ --- ┆ ---                 ┆ ---   ┆ ---       ┆ ---        ┆ ---            ┆ ---     ┆ ---        ┆ ---   │
│ str ┆ datetime[ns]        ┆ str   ┆ f64       ┆ f64        ┆ f64            ┆ f64     ┆ f64        ┆ f64   │
╞═════╪═════════════════════╪═══════╪═══════════╪════════════╪════════════════╪═════════╪════════════╪═══════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 10.0  │
│ a   ┆ 2023-09-13 14:15:04 ┆ null  ┆ 20.0      ┆ 1467.0     ┆ 570.0          ┆ 7.77    ┆ 17.77      ┆ 17.77 │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 30.0  │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5     ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 5.0   │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 10.0  │
│ b   ┆ 2023-09-13 12:30:07 ┆ null  ┆ 30.0      ┆ 2700.0     ┆ 905.0          ┆ 10.06   ┆ 20.06      ┆ 20.06 │
│ b   ┆ 2023-09-13 12:45:01 ┆ null  ┆ 30.0      ┆ 2700.0     ┆ 1799.0         ┆ 19.99   ┆ 29.99      ┆ 29.99 │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40    ┆ null      ┆ null       ┆ null           ┆ null    ┆ null       ┆ 40.0  │
└─────┴─────────────────────┴───────┴───────────┴────────────┴────────────────┴─────────┴────────────┴───────┘
[/code]
Как работает этот расчет

В качестве примера я возьму группу «b».
< ul>
[*]Есть 2 строки с нулями, которые необходимо заполнить.
[*]разница между следующим и предыдущим значением составляет 30 ( 40 - 10 )
[*]разница во времени между следующим и предыдущим значением составляет 2700 секунд (13:00:02 - 12:15:02)
[*]для первой пустой строки Разница во времени составляет 905 секунд (12:30:07 - 12:15:02). Таким образом, этой строке присваивается часть 30 * ( 905 / 2700 ), назначенная (10.06)
[*]поэтому при ее заполнении значение заполнения равно 10 + 10.06
[*] следующая пустая строка получает часть 30 * ( 1799 / 2700 ) (19,99), поэтому ее значение заполнения равно 10 + 19,99.

Спасибо за помощь. Я новичок как в Polars, так и в Python, поэтому мой ум, ориентированный на SQL, все еще обдумывает все это.
Лично я считаю, что это было бы отличным дополнением к fill_null, чтобы иметь возможность использовать правило трех с использованием другого столбца для пропорциональности
Спасибо 

Подробнее здесь: [url]https://stackoverflow.com/questions/77099610/polars-fill-null-using-rule-of-three-based-of-filtered-set[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Полярные поля - заполнить нуль над группами

Последнее сообщение Anonymous « 15 окт 2024, 18:46
Добавлено в форуме Python

Anonymous » 15 окт 2024, 18:46 » в форуме Python

Я пытаюсь заполнить пустые метки времени для групп, мой фрейм данных выглядит так
df = pl.from_repr(
┌───────────────────────────────────┬──────────────────────────────────┬───────┐
│ start ┆ stop ┆ group │
│ --- ┆ --- ┆ --- │
│ str ┆ str ┆ i64 │...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
15 окт 2024, 18:46
Как я могу отфильтровать базу данных pandas и создать график карты на основе этого отфильтрованного набора данных?

Последнее сообщение Anonymous « 14 окт 2023, 09:02
Добавлено в форуме Python

Anonymous » 14 окт 2023, 09:02 » в форуме Python

Вот подсказка, которую мне дали для этого задания:

Импортируйте данные «Отчеты о насилии с применением огнестрельного оружия в Чикаго.csv» с холста в блокнот Colab. Данные содержат сообщения о побоях с применением огнестрельного оружия в Чикаго в...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
14 окт 2023, 09:02
Неожиданно обнаружил нуль при развертывании необязательного значения?

Последнее сообщение Anonymous « 20 июн 2025, 04:22
Добавлено в форуме IOS

Anonymous » 20 июн 2025, 04:22 » в форуме IOS

Я сталкиваюсь с ошибкой: «Неожиданно нашел нуль, когда разворачивая необязательное значение»
Когда я вставляю новые данные в Coredata и перезагрузить свою таблицу, я помню эту функцию

var unique = ()
var loadMovie = [String: ]()

func...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
20 июн 2025, 04:22
Как реализовать правило трех/пяти/ноля с массивами производных объектов?

Последнее сообщение Anonymous « 29 сен 2023, 18:57
Добавлено в форуме C++

Anonymous » 29 сен 2023, 18:57 » в форуме C++

Я пытаюсь создать массив производных объектов, но мое приложение вызывает несколько ошибок проверки при закрытии программы:

vkDestroyDescriptorPool(): неверный объект VkDescriptorPool 0x625f640000000058 Не удалось найти объект VkDescriptorPool...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
29 сен 2023, 18:57
Что такое правило трех?

Последнее сообщение Anonymous « 19 фев 2025, 15:17
Добавлено в форуме C++

Anonymous » 19 фев 2025, 15:17 » в форуме C++

Что означает копирование объекта ? EM> Оператор назначения копирования ?
Когда мне нужно их объявить? ?

Подробнее здесь:

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 15:17

Вернуться в «Python»