Pandas, как векторизовать расчет, основанный на предыдущих строках

Pandas, как векторизовать расчет, основанный на предыдущих строках ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pandas, как векторизовать расчет, основанный на предыдущих строках

Цитата

Сообщение Anonymous » 04 июл 2024, 19:16

Я новичок в pandas и пытаюсь перенести индикатор из сценария pine в Python. У меня есть расчет, основанный на значениях предыдущей строки, которые динамически вычисляются для получения значений текущей строки. Я смог сделать это только с помощью цикла for и не нашел хорошего способа сделать это с помощью numpy или dataframe.apply. Проблема в том, что этот расчет выполняется очень медленно, слишком медленно, чтобы его можно было использовать в моих целях. 14 секунд только для 21951 строки.
Кто-нибудь знает, как сделать это более эффективно в пандах? Выяснение этого определенно поможет мне при создании других индикаторов, поскольку большинство из них в той или иной степени зависят от значений предыдущих строк.
Кадр данных выглядит так:

Код: Выделить всё

"""
//
// @author LazyBear
// List of all my indicators:
// https://docs.google.com/document/d/15AGCufJZ8CIUvwFJ9W-IKns88gkWOKBCvByMEvm5MLo/edit?usp=sharing
//
study(title="Coral Trend Indicator [LazyBear]", shorttitle="CTI_LB", overlay=true)
src=close
sm =input(21, title="Smoothing Period")
cd = input(0.4, title="Constant D")
ebc=input(false, title="Color Bars")
ribm=input(false, title="Ribbon Mode")
"""

# @jit(nopython=True) -- Tried this but was getting an error ==> argument 0: Cannot determine Numba type of 
def coral_trend_filter(df, sm = 21, cd = 0.4):
new_df = df.copy()

di = (sm - 1.0) / 2.0 + 1.0
c1 = 2 / (di + 1.0)
c2 = 1 - c1
c3 = 3.0 * (cd * cd + cd * cd * cd)
c4 = -3.0 * (2.0 * cd * cd + cd + cd * cd * cd)
c5 = 3.0 * cd + 1.0 + cd * cd * cd + 3.0 * cd * cd

new_df['i1'] = 0
new_df['i2'] = 0
new_df['i3'] = 0
new_df['i4'] = 0
new_df['i5'] = 0
new_df['i6'] = 0

for i in range(1, len(new_df)):
new_df.loc[i, 'i1'] = c1*new_df.loc[i, 'close'] + c2*new_df.loc[i - 1, 'i1']
new_df.loc[i, 'i2'] = c1*new_df.loc[i, 'i1'] + c2*new_df.loc[i - 1, 'i2']
new_df.loc[i, 'i3'] = c1*new_df.loc[i, 'i2'] + c2*new_df.loc[i - 1, 'i3']
new_df.loc[i, 'i4'] = c1*new_df.loc[i, 'i3'] + c2*new_df.loc[i - 1, 'i4']
new_df.loc[i, 'i5'] = c1*new_df.loc[i, 'i4'] + c2*new_df.loc[i - 1, 'i5']
new_df.loc[i, 'i6'] = c1*new_df.loc[i, 'i5'] + c2*new_df.loc[i - 1, 'i6']

new_df['cif'] = -cd*cd*cd*new_df['i6'] + c3*new_df['i5'] + c4*new_df['i4'] + c5*new_df['i3']
new_df.dropna(inplace=True)

# trend direction
new_df['cifd'] = 0

# trend direction color
new_df['cifd'] = 'blue'

new_df['cifd'] = np.where(new_df['cif'] < new_df['cif'].shift(-1), 1, -1)
new_df['cifc'] = np.where(new_df['cifd'] == 1, 'green', 'red')

new_df.drop(columns=['i1', 'i2', 'i3', 'i4', 'i5', 'i6'], inplace=True)

return new_df

df = coral_trend_filter(data_frame)

Ответ на комментарий:
Одно из предложений заключалось в использовании сдвига. Это не работает, поскольку расчет каждой строки обновляется на каждой итерации. При сдвиге сохраняются начальные значения и не обновляются сдвинутые столбцы, поэтому вычисленные значения неверны. Посмотрите этот снимок экрана, который не соответствует оригиналу в столбце cif. Также обратите внимание, что я оставил сдвиг_i1, чтобы показать, что столбцы остаются равными 0, что неверно для вычислений.
[img]https:// i.sstatic.net/cbDCz.png[/img]

Обновление:
Перейдя на использование .at вместо .loc Моя производительность значительно улучшилась. Возможно, моя проблема заключалась в том, что я использовал неправильный метод доступа для этого типа обработки.

Подробнее здесь: https://stackoverflow.com/questions/738 ... vious-rows

1720109815

Anonymous

Я новичок в pandas и пытаюсь перенести индикатор из сценария pine в Python.  У меня есть расчет, основанный на значениях предыдущей строки, которые динамически вычисляются для получения значений текущей строки.  Я смог сделать это только с помощью цикла for и не нашел хорошего способа сделать это с помощью numpy или dataframe.apply.  Проблема в том, что этот расчет выполняется очень медленно, слишком медленно, чтобы его можно было использовать в моих целях. 14 секунд только для 21951 строки.
Кто-нибудь знает, как сделать это более эффективно в пандах?  Выяснение этого определенно поможет мне при создании других индикаторов, поскольку большинство из них в той или иной степени зависят от значений предыдущих строк.
Кадр данных выглядит так:
[img]https://i.sstatic.net/EgdGJ.png[/img]

[code]
"""
//
// @author LazyBear
// List of all my indicators:
// https://docs.google.com/document/d/15AGCufJZ8CIUvwFJ9W-IKns88gkWOKBCvByMEvm5MLo/edit?usp=sharing
//
study(title="Coral Trend Indicator [LazyBear]", shorttitle="CTI_LB", overlay=true)
src=close
sm =input(21, title="Smoothing Period")
cd = input(0.4, title="Constant D")
ebc=input(false, title="Color Bars")
ribm=input(false, title="Ribbon Mode")
"""

# @jit(nopython=True) -- Tried this but was getting an error ==> argument 0: Cannot determine Numba type of 
def coral_trend_filter(df, sm = 21, cd = 0.4):
new_df = df.copy()

di = (sm - 1.0) / 2.0 + 1.0
c1 = 2 / (di + 1.0)
c2 = 1 - c1
c3 = 3.0 * (cd * cd + cd * cd * cd)
c4 = -3.0 * (2.0 * cd * cd + cd + cd * cd * cd)
c5 = 3.0 * cd + 1.0 + cd * cd * cd + 3.0 * cd * cd

new_df['i1'] = 0
new_df['i2'] = 0
new_df['i3'] = 0
new_df['i4'] = 0
new_df['i5'] = 0
new_df['i6'] = 0

for i in range(1, len(new_df)):
new_df.loc[i, 'i1'] = c1*new_df.loc[i, 'close'] + c2*new_df.loc[i - 1, 'i1']
new_df.loc[i, 'i2'] = c1*new_df.loc[i, 'i1'] + c2*new_df.loc[i - 1, 'i2']
new_df.loc[i, 'i3'] = c1*new_df.loc[i, 'i2'] + c2*new_df.loc[i - 1, 'i3']
new_df.loc[i, 'i4'] = c1*new_df.loc[i, 'i3'] + c2*new_df.loc[i - 1, 'i4']
new_df.loc[i, 'i5'] = c1*new_df.loc[i, 'i4'] + c2*new_df.loc[i - 1, 'i5']
new_df.loc[i, 'i6'] = c1*new_df.loc[i, 'i5'] + c2*new_df.loc[i - 1, 'i6']

new_df['cif'] = -cd*cd*cd*new_df['i6'] + c3*new_df['i5'] + c4*new_df['i4'] + c5*new_df['i3']
new_df.dropna(inplace=True)

# trend direction
new_df['cifd'] = 0

# trend direction color
new_df['cifd'] = 'blue'

new_df['cifd'] = np.where(new_df['cif'] < new_df['cif'].shift(-1), 1, -1)
new_df['cifc'] = np.where(new_df['cifd'] == 1, 'green', 'red')

new_df.drop(columns=['i1', 'i2', 'i3', 'i4', 'i5', 'i6'], inplace=True)

return new_df

df = coral_trend_filter(data_frame)
[/code]
[b]Ответ на комментарий[/b]:
Одно из предложений заключалось в использовании сдвига.  Это не работает, поскольку расчет каждой строки обновляется на каждой итерации.  При сдвиге сохраняются начальные значения и не обновляются сдвинутые столбцы, поэтому вычисленные значения неверны.  Посмотрите этот снимок экрана, который не соответствует оригиналу в столбце cif.  Также обратите внимание, что я оставил сдвиг_i1, чтобы показать, что столбцы остаются равными 0, что неверно для вычислений.
[img]https:// i.sstatic.net/cbDCz.png[/img]

[b]Обновление[/b]:
Перейдя на использование .at вместо .loc  Моя производительность значительно улучшилась.  Возможно, моя проблема заключалась в том, что я использовал неправильный метод доступа для этого типа обработки. 

Подробнее здесь: [url]https://stackoverflow.com/questions/73848700/pandas-how-to-vectorize-a-calculation-that-relies-on-previous-rows[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Найдите дубликаты в столбце pandas вложенных списков в предыдущих строках с несколькими условиями.

Последнее сообщение Anonymous « 20 сен 2024, 19:13
Добавлено в форуме Python

Anonymous » 20 сен 2024, 19:13 » в форуме Python

Я немного не понимаю, как это закодировать.
У меня есть такой набор данных:
rules user_list event_time row_number
rule1 123,244,344 2024-09-20 1
rule1 125,346,421 2024-09-19 2
rule1 125,343,431 2024-09-18 3
rule2 125,344,423 2024-09-20 1
rule2...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
20 сен 2024, 19:13
Панды: как мне векторизовать этот расчет цикла?

Последнее сообщение Anonymous « 22 сен 2024, 15:51
Добавлено в форуме Python

Anonymous » 22 сен 2024, 15:51 » в форуме Python

В настоящее время я применяю цикл for, приведенный ниже, к кадру данных pandas с полями pro, id и time. Как это векторизовать?
Детерминированный пример входных данных, созданный с помощью следующего кода:
import pandas as pd
import random...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 15:51
Как векторизовать операции в кадре данных pandas?

Последнее сообщение Anonymous « 29 дек 2023, 21:46
Добавлено в форуме Python

Anonymous » 29 дек 2023, 21:46 » в форуме Python

импортировать панд как pd столбцы = df = pd.DataFrame({'Patient': , 'S1': , 'S2': , 'S3': , 'S4': , 'S5': }) # векторизованные операции во фрейме данных # получаем количество ячеек >=0,5 для каждого столбца arr1 = df .ge(0,5).sum().to_numpy() #...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
29 дек 2023, 21:46
Как векторизовать Pandas DateTimeIndex

Последнее сообщение Anonymous « 15 янв 2025, 09:27
Добавлено в форуме Python

Anonymous » 15 янв 2025, 09:27 » в форуме Python

Я пытаюсь избежать цикла for с DateTimeIndex. У меня есть функция get_latest, которая ищет самое последнее значение индекса заработной платы. Когда я просматриваю даты дней зарплаты, поиск работает нормально. Когда я пытаюсь векторизовать операцию,...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
15 янв 2025, 09:27
Pandas — накопительная сумма значений предыдущих строк.

Последнее сообщение Anonymous « 17 ноя 2024, 21:38
Добавлено в форуме Python

Anonymous » 17 ноя 2024, 21:38 » в форуме Python

Вот пример набора данных:
id a
0 5 1
1 5 0
2 5 4
3 5 6
4 5 2
5 5 3
6 9 0
7 9 1
8 9 6
9 9 2
10 9 4

На основе набора данных я хочу сгенерировать сумму по столбцу. Для первых трех строк: sum=sum+a(группировать по идентификатору). Начиная с 4-й...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
17 ноя 2024, 21:38

Вернуться в «Python»