Python: самый быстрый способ выполнить миллионы простых линейных регрессий только с одной экзогенной переменной.

Python: самый быстрый способ выполнить миллионы простых линейных регрессий только с одной экзогенной переменной. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Python: самый быстрый способ выполнить миллионы простых линейных регрессий только с одной экзогенной переменной.

Цитата

Сообщение Anonymous » 16 окт 2024, 14:40

Я выполняю покомпонентную регрессию данных временных рядов. По сути, это тот случай, когда вместо регрессии y к x1, x2, ..., xN мы бы регрессировали y к x< только sub>1, y против только x2, ... и возьмите регрессию, которая больше всего уменьшает сумму квадратных остатков, и добавьте ее в качестве базового обучающегося. Это повторяется M раз, так что окончательная модель представляет собой сумму многих простых линейных регрессий формы y против xi (только 1 экзогенная переменная), в основном градиентное повышение с использованием линейной регрессии в качестве базовых обучающихся. .
Проблема в том, что, поскольку я выполняю скользящую оконную регрессию для данных временных рядов, мне приходится выполнять регрессию N × M × T, что составляет более миллиона OLS. Хотя каждый OLS работает очень быстро, на моем слабом ноутбуке его запуск занимает несколько часов.
В настоящее время я использую statsmodels.OLS.fit() как способ получить мои параметры для каждого y против линейной регрессии xi как таковой. Z_matrix — это матрица данных, а i представляет ith столбец, который нужно срезать для регрессии. Количество строк составляет около 100, а размер z_matrix — примерно 100 × 500.

Код: Выделить всё

    ols_model = sm.OLS(endog=endog, exog=self.z_matrix[:, i][..., None]).fit()
return ols_model.params, ols_model.ssr, ols_model.fittedvalues[..., None]

Я прочитал предыдущий пост в 2016 году. Самый быстрый способ рассчитать множество регрессий в Python? что использование повторных вызовов моделей статистики неэффективно, и я попробовал один из ответов, который предлагал pinv numpy, который, к сожалению, медленнее:

Код: Выделить всё

    # slower: 40sec vs 30sec for statsmodel for 100 repeated runs of 150 linear regressions
params = np.linalg.pinv(self.z_matrix[:, [i]]).dot(endog)
y_hat = self.z_matrix[:, [i]]@params
ssr = sum((y_hat-endog)**2)
return params, ssr, y_hat

Есть ли у кого-нибудь лучшие предложения по ускорению вычисления линейной регрессии? Мне просто нужны оцененные параметры, сумма квадратных остатков и прогнозируемое значение ŷ. Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/625 ... th-1-exoge

1729078850

Anonymous

Я выполняю покомпонентную регрессию данных временных рядов. По сути, это тот случай, когда вместо регрессии y к x1, x2, ..., xN мы бы регрессировали y к x< только sub>1, y против только x2, ... и возьмите регрессию, которая больше всего уменьшает сумму квадратных остатков, и добавьте ее в качестве базового обучающегося. Это повторяется M раз, так что окончательная модель представляет собой сумму многих простых линейных регрессий формы y против xi (только 1 экзогенная переменная), в основном градиентное повышение с использованием линейной регрессии в качестве базовых обучающихся. .
Проблема в том, что, поскольку я выполняю скользящую оконную регрессию для данных временных рядов, мне приходится выполнять регрессию N × M × T, что составляет более миллиона OLS. Хотя каждый OLS работает очень быстро, на моем слабом ноутбуке его запуск занимает несколько часов.
В настоящее время я использую statsmodels.OLS.fit() как способ получить мои параметры для каждого y против линейной регрессии xi как таковой. Z_matrix — это матрица данных, а i представляет ith столбец, который нужно срезать для регрессии. Количество строк составляет около 100, а размер z_matrix — примерно 100 × 500.
[code]    ols_model = sm.OLS(endog=endog, exog=self.z_matrix[:, i][..., None]).fit()
return ols_model.params, ols_model.ssr, ols_model.fittedvalues[..., None]
[/code]
Я прочитал предыдущий пост в 2016 году. Самый быстрый способ рассчитать множество регрессий в Python? что использование повторных вызовов моделей статистики неэффективно, и я попробовал один из ответов, который предлагал pinv numpy, который, к сожалению, медленнее:
[code]    # slower: 40sec vs 30sec for statsmodel for 100 repeated runs of 150 linear regressions
params = np.linalg.pinv(self.z_matrix[:, [i]]).dot(endog)
y_hat = self.z_matrix[:, [i]]@params
ssr = sum((y_hat-endog)**2)
return params, ssr, y_hat
[/code]
Есть ли у кого-нибудь лучшие предложения по ускорению вычисления линейной регрессии? Мне просто нужны оцененные параметры, сумма квадратных остатков и прогнозируемое значение ŷ. Спасибо!
 

Подробнее здесь: [url]https://stackoverflow.com/questions/62592094/python-fastest-way-to-perform-millions-of-simple-linear-regression-with-1-exoge[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как эффективно решить миллионы независимых линейных систем 2x2 с дополнительными матрицами

Последнее сообщение Anonymous « 27 май 2025, 13:07
Добавлено в форуме Python

Anonymous » 27 май 2025, 13:07 » в форуме Python

мне нужно решить миллионы до десятков миллионов независимых 2-переменных линейных систем, представленных в форме дополненной матрицы. Вход состоит из коэффициентов векторов A, B, C, A ', B', C '(каждый из которых содержит миллионы до сотен миллионов...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
27 май 2025, 13:07
Как эффективно решить миллионы независимых линейных систем 2x2 с дополнительными матрицами

Последнее сообщение Anonymous « 27 май 2025, 14:06
Добавлено в форуме Python

Anonymous » 27 май 2025, 14:06 » в форуме Python

мне нужно решить миллионы до десятков миллионов независимых 2-переменных линейных систем, представленных в форме дополненной матрицы. Вход состоит из коэффициентов векторов A, B, C, A ', B', C '(каждый из которых содержит миллионы до сотен миллионов...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
27 май 2025, 14:06
Как использовать функцию Curve_fit внутри цикла for для создания нескольких регрессий за один раз в Python?

Последнее сообщение Anonymous « 31 июл 2024, 02:46
Добавлено в форуме Python

Anonymous » 31 июл 2024, 02:46 » в форуме Python

Короче говоря, у меня есть две матрицы: одна называется t, а другая — y. В каждом из них по 7 столбцов. Допустим, они называются a, b, c, d, e, f и g. Мне хотелось бы получить регрессию от a к a, b к b, ..., g к g для этих двух матриц.

Мне уже...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
31 июл 2024, 02:46
Как объединить разные графики при построении нескольких точечных/линейных графиков на одной фигуре?

Последнее сообщение Anonymous « 16 янв 2025, 20:58
Добавлено в форуме Python

Anonymous » 16 янв 2025, 20:58 » в форуме Python

Я строю несколько линейных и точечных графиков на одной фигуре и оси. Мой код устанавливает одну переменную с именем total_steel_area, а затем обрабатывает набор значений другой переменной с именем phi_x__h. Затем он вычисляет значения x и y на...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
16 янв 2025, 20:58
Самый быстрый/самый быстрый способ конвертировать фреймы данных pandas в таблицы слов

Последнее сообщение Anonymous « 29 фев 2024, 18:49
Добавлено в форуме Python

Anonymous » 29 фев 2024, 18:49 » в форуме Python

Я пытаюсь преобразовать кадры данных pandas в таблицы слов. Однако для больших фреймов данных текущий процесс, который я использую, чрезвычайно медленный. Это связано с тем, что к каждой ячейке необходимо обращаться поочередно. Насколько мне...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 18:49

Вернуться в «Python»