Как заполнить максимальный лимит времени (GAP) для более чем 120 миллионов строк? - Цифровое Кемерово

Как заполнить максимальный лимит времени (GAP) для более чем 120 миллионов строк? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как заполнить максимальный лимит времени (GAP) для более чем 120 миллионов строк?

Цитата

Сообщение Anonymous » 21 мар 2026, 21:42

Проблема:
Я борюсь с узким местом производительности в наборе данных, содержащем более 120 миллионов строк.
Мне нужно заранее заполнить значения NaN в данных датчика, но только если промежуток времени с момента последнего действительного чтения составляет менее 5 минут.
Если разрыв больше, он должен оставаться NaN.
Стандартный groupby().apply() занимает более 40 минут, что слишком медленно для нашего конвейера.
Мой код:

Код: Выделить всё

import pandas as pd
import numpy as np

df = pd.DataFrame({
'sensor_id': [1, 1, 1, 1, 2, 2],
'timestamp': pd.to_datetime(['10:00', '10:03', '10:10', '10:11', '10:00', '10:01']),
'temp': [22.1, np.nan, np.nan, 23.0, 19.5, np.nan]
})

# This works on small data but is painfully slow on 100M rows
def limit_ffill(group):
return group['temp'].ffill(limit=1)

# df['temp'] = df.groupby('sensor_id').apply(limit_ffill)

Цель:
Для этого мне нужен векторизованный способ (или, возможно, что-то с использованием numpy или numba).
По сути:

Группировка по датчику.
Температура прямого заполнения.
Если current_timestamp - last_valid_timestamp > 5 минут, сбросить значение NaN.

Есть ли способ сделать это без цикла Python или тяжелого .groupby().apply()?
Существует ли векторизованный способ заполнения с ограничением по времени между группами?

Я просмотрел pd.merge_asof, но не могу понять, как заставить его работать для простой прямой заливки.

Подробнее: https://stackoverflow.com/questions/799 ... -120m-rows

1774118564

Anonymous

[b]Проблема:[/b]
Я борюсь с узким местом производительности в наборе данных, содержащем более 120 миллионов строк.
Мне нужно заранее заполнить значения NaN в данных датчика, но только если промежуток времени с момента последнего действительного чтения составляет менее 5 минут.
Если разрыв больше, он должен оставаться NaN.
Стандартный groupby().apply() занимает более 40 минут, что слишком медленно для нашего конвейера.
[b]Мой код:[/b]
[code]import pandas as pd
import numpy as np

df = pd.DataFrame({
'sensor_id': [1, 1, 1, 1, 2, 2],
'timestamp': pd.to_datetime(['10:00', '10:03', '10:10', '10:11', '10:00', '10:01']),
'temp': [22.1, np.nan, np.nan, 23.0, 19.5, np.nan]
})

# This works on small data but is painfully slow on 100M rows
def limit_ffill(group):
return group['temp'].ffill(limit=1)

# df['temp'] = df.groupby('sensor_id').apply(limit_ffill)
[/code]
[b]Цель:[/b]
Для этого мне нужен векторизованный способ (или, возможно, что-то с использованием numpy или numba).
По сути:
[list]
[*]Группировка по датчику.
[*]Температура прямого заполнения.
[*]Если current_timestamp - last_valid_timestamp > 5 минут, сбросить значение NaN.
[/list]
Есть ли способ сделать это без цикла Python или тяжелого .groupby().apply()?
Существует ли векторизованный способ заполнения с ограничением по времени между группами?

Я просмотрел pd.merge_asof, но не могу понять, как заставить его работать для простой прямой заливки. 

Подробнее: [url]https://stackoverflow.com/questions/79911487/how-to-ffill-with-a-maximum-time-limit-gap-across-120m-rows[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»