Pandas/Python создает новый столбец со строками на основе состояния старого столбца и предыдущей строки

Pandas/Python создает новый столбец со строками на основе состояния старого столбца и предыдущей строки ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pandas/Python создает новый столбец со строками на основе состояния старого столбца и предыдущей строки

Цитата

Сообщение Anonymous » 28 окт 2024, 23:47

Я пытаюсь проанализировать некоторые данные в кадре данных и определить, когда в данных появляется время простоя (проявляющееся в виде плоских участков). Эти плоские точки возникают, когда значения disp меняются от > 520 до ~ 225. Я хотел бы создать новый столбец, который будет служить меткой для этих времен.
Это небольшой сжатый пример. выдержка из некоторых моих данных. Полный набор данных содержит около 270 000 строк и может быть зашумлен. Начало периода простоя — строка 150, а конец периода простоя — строка 157.

Код: Выделить всё

           disp      temp
148  528.253551  0.908375
149  537.832220  0.944138
150  225.073475  0.890493
151  225.247861  0.892878
152  225.487333  0.895262
153  225.515279  0.926256
154  225.515003  0.909567
155  225.518680  0.901222
156  225.537893  0.927448
157  225.068878  0.865460
158  540.460613  0.873804
159  531.048884  0.865460

Вывод, который я хотел бы создать:

Код: Выделить всё

           disp      temp      state
148  528.253551  0.908375       None
149  537.832220  0.944138       None
150  225.073475  0.890493   idl_strt
151  225.247861  0.892878       idle
152  225.487333  0.895262       idle
153  225.515279  0.926256       idle
154  225.515003  0.909567       idle
155  225.518680  0.901222       idle
156  225.537893  0.927448       idle
157  225.068878  0.865460   idl_ends
158  540.460613  0.873804       None
159  531.048884  0.865460       None

Есть ли векторизованный способ сделать это? Могут ли функции, вызванные с помощью метода pd.apply, просматривать предыдущие строки без предварительного создания дополнительных сдвинутых столбцов?
Мне уже удалось заполнить правильные строки столбца состояния с помощью «idl_start» и «idl_ends», используя следующий код

Код: Выделить всё

def _idlefinder(self, row):
"""Logic for finding idles start and end"""
if (row["disp"] + 250.0) < row["nextdisp"]:  # find large drops in disp value
return "idle_strt"
elif row["disp"] + 250 < row["lastdisp"]:    # find large increases in disp value
return "idle_end"

df["lastdisp"] = df["disp"].shift(1)
df["nextdisp"] = df["disp"].shift(-1)
df["status"] = df.apply(_idlefinder, axis=1)  # label idle_start and idle_end
df.drop(columns=["nextdisp", "lastdisp"], inplace=True)

Но это неэлегантное и неполное решение. Важнейшая часть того, о чем я спрашиваю, — это как заполнить строки между «idl_strt» и «idl_ends», поскольку оставшиеся разделы данных (подъемы и паузы с зашумленными показаниями) также необходимо будет идентифицировать и пометить. Я предпочитаю не просматривать данные построчно, поскольку я использую фрейм данных.
Предыдущие версии этой программы анализировали эти данные построчно в списках, но стали немного многословен и требует настройки или изменения.

Подробнее здесь: https://stackoverflow.com/questions/791 ... f-old-colu

1730148448

Anonymous

Я пытаюсь проанализировать некоторые данные в кадре данных и определить, когда в данных появляется время простоя (проявляющееся в виде плоских участков).  Эти плоские точки возникают, когда значения disp меняются от > 520 до ~ 225. Я хотел бы создать новый столбец, который будет служить меткой для этих времен.
Это небольшой сжатый пример. выдержка из некоторых моих данных.  Полный набор данных содержит около 270 000 строк и может быть зашумлен.  Начало периода простоя — строка 150, а конец периода простоя — строка 157.
[code]           disp      temp
148  528.253551  0.908375
149  537.832220  0.944138
150  225.073475  0.890493
151  225.247861  0.892878
152  225.487333  0.895262
153  225.515279  0.926256
154  225.515003  0.909567
155  225.518680  0.901222
156  225.537893  0.927448
157  225.068878  0.865460
158  540.460613  0.873804
159  531.048884  0.865460
[/code]
Вывод, который я хотел бы создать:
[code]           disp      temp      state
148  528.253551  0.908375       None
149  537.832220  0.944138       None
150  225.073475  0.890493   idl_strt
151  225.247861  0.892878       idle
152  225.487333  0.895262       idle
153  225.515279  0.926256       idle
154  225.515003  0.909567       idle
155  225.518680  0.901222       idle
156  225.537893  0.927448       idle
157  225.068878  0.865460   idl_ends
158  540.460613  0.873804       None
159  531.048884  0.865460       None
[/code]
Есть ли векторизованный способ сделать это?  Могут ли функции, вызванные с помощью метода pd.apply, просматривать предыдущие строки без предварительного создания дополнительных сдвинутых столбцов?
Мне уже удалось заполнить правильные строки столбца состояния с помощью «idl_start» и «idl_ends», используя следующий код
[code]def _idlefinder(self, row):
"""Logic for finding idles start and end"""
if (row["disp"] + 250.0) < row["nextdisp"]:  # find large drops in disp value
return "idle_strt"
elif row["disp"] + 250 < row["lastdisp"]:    # find large increases in disp value
return "idle_end"

df["lastdisp"] = df["disp"].shift(1)
df["nextdisp"] = df["disp"].shift(-1)
df["status"] = df.apply(_idlefinder, axis=1)  # label idle_start and idle_end
df.drop(columns=["nextdisp", "lastdisp"], inplace=True)
[/code]
Но это неэлегантное и неполное решение.    Важнейшая часть того, о чем я спрашиваю, — это как заполнить строки между «idl_strt» и «idl_ends», поскольку оставшиеся разделы данных (подъемы и паузы с зашумленными показаниями) также необходимо будет идентифицировать и пометить.   Я предпочитаю не просматривать данные построчно, поскольку я использую фрейм данных.
Предыдущие версии этой программы анализировали эти данные построчно в списках, но стали немного многословен и требует настройки или изменения. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79134849/pandas-python-creating-new-column-with-rows-based-based-on-condition-of-old-colu[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Python pandas создает новый строковый столбец кумулятивно на основе другого состояния столбца

Последнее сообщение Anonymous « 14 окт 2023, 08:59
Добавлено в форуме Python

Anonymous » 14 окт 2023, 08:59 » в форуме Python

Предположим, у меня есть набор данных (df)

Группа | Должность_сотрудника | Имя сотрудника А | Менеджер | Джон А | Аналитик | Адам А | Аналитик | Смит Б | Менеджер | Счет Б | Аналитик | Эд Б | Аналитик | Джей Я хочу создать новый столбец...

0 Ответы

58 Просмотры

Последнее сообщение Anonymous
14 окт 2023, 08:59
Создание нового столбца фрейма данных на основе значений в другом столбце (той же строке и предыдущей строке), а также н

Последнее сообщение Anonymous « 01 мар 2024, 18:23
Добавлено в форуме Python

Anonymous » 01 мар 2024, 18:23 » в форуме Python

Я хочу создать столбец в кадре данных на основе другого столбца, используя две строки, и самого нового столбца. Я пытаюсь воспроизвести и превзойти функцию, которая создает постоянную сумму значений, пока не будет выполнено определенное условие....

0 Ответы

105 Просмотры

Последнее сообщение Anonymous
01 мар 2024, 18:23
Поляры выбирают значения столбца на основе состояния другого столбца

Последнее сообщение Anonymous « 24 янв 2025, 16:16
Добавлено в форуме Python

Anonymous » 24 янв 2025, 16:16 » в форуме Python

Учитывая следующий Polars DataFrame:
pl.DataFrame({'A': ,
'B': ,
'x': })

shape: (4, 3)
┌─────┬─────┬─────┐
│ A ┆ B ┆ x │
│ --- ┆ --- ┆ --- │
│ str ┆ str ┆ i64 │
╞═════╪═════╪═════╡
│ a0 ┆ b1 ┆ 0 │
│ a0 ┆ b2 ┆ 10 │
│ a1 ┆ b1 ┆ 5 │
│ a1 ┆ b2 ┆ 1 │...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 16:16
Python Pandas: Groupby несколько столбцов и линейно интерполяция значений столбца Y на основе другого столбца x

Последнее сообщение Anonymous « 07 фев 2025, 19:15
Добавлено в форуме Python

Anonymous » 07 фев 2025, 19:15 » в форуме Python

Рассмотрим следующий Pandas DataFrame
reference sicovam label id date TTM price
0 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 18 52.69
1 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 30 NaN
2 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 49...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 19:15
Python Pandas: Groupby несколько столбцов и линейно интерполяция значений столбца Y на основе другого столбца x

Последнее сообщение Anonymous « 07 фев 2025, 20:01
Добавлено в форуме Python

Anonymous » 07 фев 2025, 20:01 » в форуме Python

Рассмотрим следующий Pandas DataFrame
reference sicovam label id date TTM price
0 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 18 52.69
1 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 30 NaN
2 SCOM_WTI 68801903 WTI Nymex BBG:CL 2015-01-02 49...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
07 фев 2025, 20:01

Вернуться в «Python»