Рассчитайте средневзвешенное значение, используя группировку Pandas, и обработайте NaN.

Рассчитайте средневзвешенное значение, используя группировку Pandas, и обработайте NaN. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Рассчитайте средневзвешенное значение, используя группировку Pandas, и обработайте NaN.

Цитата

Сообщение Anonymous » 11 ноя 2024, 20:14

Я пытаюсь вычислить средневзвешенное значение с помощью функции groupby. Однако я имею дело с пустым значением в моем фрейме данных.

Код: Выделить всё

df = pd.DataFrame({
'group': ['a', 'a', 'a', 'a'],
'x': [10, 20, np.nan, 20],
'weight_x': [10, 15, np.nan, 25],
'y': [25, 35, 45, np.nan],
'weight_y': [10, 20, 10, np.nan]
})

Это моя функция группировки:

Код: Выделить всё

summary = (
df
.groupby(['group'])
.apply(
lambda x: pd.Series([
np.average(x['x'], weights=x['weight_x']),
np.average(x['y'], weights=x['weight_y'])
], index=['wt_avg_x', 'wt_avg_y'])
)
.reset_index()
)

Это дает следующий результат:

Код: Выделить всё

  group  wt_avg_x  wt_avg_y
0     a       NaN       NaN

Однако ожидаемый результат должен быть следующим:

Код: Выделить всё

  group  wt_avg_x  wt_avg_y
0     a      20.5      35

Я пробовал это решение:

Код: Выделить всё

summary = (
df.dropna(subset=['x', 'y', 'weight_x', 'weight_y'])
.groupby(['group'])
.apply(
lambda x: pd.Series([
np.average(x['x'], weights=x['weight_x']),
np.average(x['y'], weights=x['weight_y'])
], index=['wt_avg_x', 'wt_avg_y'])
)
.reset_index()
)

Но dropna удаляет всю строку. Как я мог игнорировать значения nan только в функции np.average.

Подробнее здесь: https://stackoverflow.com/questions/791 ... l-with-nan

1731345244

Anonymous

Я пытаюсь вычислить средневзвешенное значение с помощью функции groupby. Однако я имею дело с пустым значением в моем фрейме данных.
[code]df = pd.DataFrame({
'group': ['a', 'a', 'a', 'a'],
'x': [10, 20, np.nan, 20],
'weight_x': [10, 15, np.nan, 25],
'y': [25, 35, 45, np.nan],
'weight_y': [10, 20, 10, np.nan]
})
[/code]
Это моя функция группировки:
[code]summary = (
df
.groupby(['group'])
.apply(
lambda x: pd.Series([
np.average(x['x'], weights=x['weight_x']),
np.average(x['y'], weights=x['weight_y'])
], index=['wt_avg_x', 'wt_avg_y'])
)
.reset_index()
)

[/code]
Это дает следующий результат:
[code]  group  wt_avg_x  wt_avg_y
0     a       NaN       NaN
[/code]
Однако ожидаемый результат должен быть следующим:
[code]  group  wt_avg_x  wt_avg_y
0     a      20.5      35
[/code]
Я пробовал это решение:
[code]summary = (
df.dropna(subset=['x', 'y', 'weight_x', 'weight_y'])
.groupby(['group'])
.apply(
lambda x: pd.Series([
np.average(x['x'], weights=x['weight_x']),
np.average(x['y'], weights=x['weight_y'])
], index=['wt_avg_x', 'wt_avg_y'])
)
.reset_index()
)
[/code]
Но dropna удаляет всю строку. Как я мог игнорировать значения nan только в функции np.average. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79178468/calculate-weighted-average-using-panda-groupby-and-deal-with-nan[/url]