Как вернуть несколько статистических данных в виде нескольких столбцов в контексте Polars grouby? - Цифровое Кемерово

Как вернуть несколько статистических данных в виде нескольких столбцов в контексте Polars grouby? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как вернуть несколько статистических данных в виде нескольких столбцов в контексте Polars grouby?

Цитата

Сообщение Anonymous » 25 сен 2024, 18:00

Стоящая задача — выполнить множественную линейную регрессию по нескольким столбцам в контексте группировки и вернуть соответствующие бета-коэффициенты и связанные с ними значения t в отдельных столбцах.
Ниже приведена иллюстрация попытка сделать это с помощью статистических моделей.

Код: Выделить всё

import numpy as np
import polars as pl
import statsmodels.api as sm

from functools import partial

def ols_stats(s, yvar, xvars):
df = s.struct.unnest()
yvar = df[yvar].to_numpy()
xvars = df[xvars].to_numpy()
reg = sm.OLS(yvar, sm.add_constant(xvars), missing="drop").fit()
return np.concatenate((reg.params, reg.tvalues))

df = pl.DataFrame(
{
"day": [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3],
"y": [1, 6, 3, 2, 8, 4, 5, 2, 7, 3, 1],
"x1": [1, 8, 2, 3, 5, 2, 1, 2, 7, 3, 1],
"x2": [8, 5, 3, 6, 3, 7, 3, 2, 9, 1, 1],
}
)

df.group_by("day").agg(
pl.struct("y", "x1", "x2")
.map_elements(partial(ols_stats, yvar="y", xvars=["x1", "x2"]))
.alias("params")
)

Результат приведенного выше фрагмента кода равен

Код: Выделить всё

shape: (3, 2)
┌─────┬─────────────────────────────────┐
│ day ┆ params                          │
│ --- ┆ ---                             │
│ i64 ┆ object                          │
╞═════╪═════════════════════════════════╡
│ 2   ┆ [2.0462002  0.22397054 0.33679… │
│ 1   ┆ [ 4.86623165  0.64029364 -0.65… │
│ 3   ┆ [0.5 0.5 0.  0. ]               │
└─────┴─────────────────────────────────┘

Как мне разделить «параметры» на отдельные столбцы с одним скалярным значением в каждом столбце?
Кроме того, мой код, похоже, дает сбой в некоторых крайних случаях. Ниже один из них.

Код: Выделить всё

df = pl.DataFrame(
{
"day": [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3],
"y": [1, 6, 3, 2, 8, 4, 5, 2, 7, 3, None],
"x1": [1, 8, 2, 3, 5, 2, 1, 2, 7, 3, 1],
"x2": [8, 5, 3, 6, 3, 7, 3, 2, 9, 1, 1],
}
)

df.group_by("day").agg(
pl.struct("y", "x1", "x2")
.map_elements(partial(ols_stats, yvar="y", xvars=["x1", "x2"]))
.alias("params")
)

# ComputeError: ValueError: exog is not 1d or 2d

Как сделать код устойчивым к таким случаям?
Спасибо за помощь. И не стесняйтесь предлагать собственное решение.

Подробнее здесь: https://stackoverflow.com/questions/755 ... by-context

Реклама

1727276413

Anonymous

Стоящая задача — выполнить множественную линейную регрессию по нескольким столбцам в контексте группировки и вернуть соответствующие бета-коэффициенты и связанные с ними значения t в отдельных столбцах.
Ниже приведена иллюстрация попытка сделать это с помощью статистических моделей.
[code]import numpy as np
import polars as pl
import statsmodels.api as sm

from functools import partial

def ols_stats(s, yvar, xvars):
df = s.struct.unnest()
yvar = df[yvar].to_numpy()
xvars = df[xvars].to_numpy()
reg = sm.OLS(yvar, sm.add_constant(xvars), missing="drop").fit()
return np.concatenate((reg.params, reg.tvalues))

df = pl.DataFrame(
{
"day": [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3],
"y": [1, 6, 3, 2, 8, 4, 5, 2, 7, 3, 1],
"x1": [1, 8, 2, 3, 5, 2, 1, 2, 7, 3, 1],
"x2": [8, 5, 3, 6, 3, 7, 3, 2, 9, 1, 1],
}
)

df.group_by("day").agg(
pl.struct("y", "x1", "x2")
.map_elements(partial(ols_stats, yvar="y", xvars=["x1", "x2"]))
.alias("params")
)
[/code]
Результат приведенного выше фрагмента кода равен
[code]shape: (3, 2)
┌─────┬─────────────────────────────────┐
│ day ┆ params                          │
│ --- ┆ ---                             │
│ i64 ┆ object                          │
╞═════╪═════════════════════════════════╡
│ 2   ┆ [2.0462002  0.22397054 0.33679… │
│ 1   ┆ [ 4.86623165  0.64029364 -0.65… │
│ 3   ┆ [0.5 0.5 0.  0. ]               │
└─────┴─────────────────────────────────┘
[/code]
Как мне разделить «параметры» на отдельные столбцы с одним скалярным значением в каждом столбце?
Кроме того, мой код, похоже, дает сбой в некоторых крайних случаях. Ниже один из них.
[code]df = pl.DataFrame(
{
"day": [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3],
"y": [1, 6, 3, 2, 8, 4, 5, 2, 7, 3, None],
"x1": [1, 8, 2, 3, 5, 2, 1, 2, 7, 3, 1],
"x2": [8, 5, 3, 6, 3, 7, 3, 2, 9, 1, 1],
}
)

df.group_by("day").agg(
pl.struct("y", "x1", "x2")
.map_elements(partial(ols_stats, yvar="y", xvars=["x1", "x2"]))
.alias("params")
)

# ComputeError: ValueError: exog is not 1d or 2d
[/code]
Как сделать код устойчивым к таким случаям?
Спасибо за помощь. И не стесняйтесь предлагать собственное решение. 

Подробнее здесь: [url]https://stackoverflow.com/questions/75516576/how-to-return-multiple-stats-as-multiple-columns-in-polars-grouby-context[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Python pandas не может использовать методmean() с grouby

Последнее сообщение Anonymous « 28 окт 2024, 21:59
Добавлено в форуме Python

Anonymous » 28 окт 2024, 21:59 » в форуме Python

Сейчас я изучаю pandas и столкнулся с ошибкой. база данных, которую я использовал:
Я пробовал, как указано в учебнике YouTube:
print(df.groupby( ).mean())

но возвращает ошибку:
Traceback (most recent call last):
File D:\PyCharm...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 21:59
Как одновременно вычислить несколько сводных статистических данных по всем столбцам с использованием ленивого кадра Pola

Последнее сообщение Anonymous « 09 окт 2024, 12:44
Добавлено в форуме Python

Anonymous » 09 окт 2024, 12:44 » в форуме Python

Предположим, у меня есть следующие данные:
df = pl.from_repr(
┌─────┬─────┬─────┐
│ a ┆ b ┆ c │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1 ┆ 2 ┆ 3 │
│ 4 ┆ 5 ┆ 6 │
│ 7 ┆ 8 ┆ 9 │
└─────┴─────┴─────┘
).lazy()

Для каждого столбца...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 12:44
Polars: вернуть фрейм данных со всеми уникальными значениями N столбцов.

Последнее сообщение Anonymous « 05 окт 2024, 14:34
Добавлено в форуме Python

Anonymous » 05 окт 2024, 14:34 » в форуме Python

У меня есть кадр данных, в котором есть много строк для каждой комбинации столбцов «PROGRAM», «VERSION» и «RELEASE_DATE». Я хочу получить фрейм данных со всеми комбинациями только этих трех столбцов.
Будет ли это задание для группировки или для...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
05 окт 2024, 14:34
Polars: вернуть фрейм данных со всеми уникальными значениями N столбцов.

Последнее сообщение Anonymous « 05 окт 2024, 23:44
Добавлено в форуме Python

Anonymous » 05 окт 2024, 23:44 » в форуме Python

У меня есть кадр данных, в котором есть много строк для каждой комбинации столбцов «PROGRAM», «VERSION» и «RELEASE_DATE». Я хочу получить фрейм данных со всеми комбинациями только этих трех столбцов.
Будет ли это задание для группировки или для...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
05 окт 2024, 23:44
Текстовое резюме статистических табличных данных

Последнее сообщение Anonymous « 04 июл 2024, 11:40
Добавлено в форуме Python

Anonymous » 04 июл 2024, 11:40 » в форуме Python

Я хочу сгенерировать 5-6 строк текстового резюме статистических табличных данных
похоже
Я пробовал использовать модели суммирования, но они не создали никаких связных предложений, они просто снова распечатал данные таблицы.
Как лучше всего это...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 11:40

Вернуться в «Python»

Programmiererforum