Создание нового столбца DataFrame из применения функции к нескольким столбцам в группе.

Создание нового столбца DataFrame из применения функции к нескольким столбцам в группе. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Создание нового столбца DataFrame из применения функции к нескольким столбцам в группе.

Цитата

Сообщение Anonymous » 08 май 2024, 21:40

У меня есть DataFrame с данными о численности населения по комбинации категориальных демографических характеристик и дат, с некоторыми пропущенными значениями (одинаковыми для всех комбинаций) на каждую дату, что представляет собой пробелы в данных.
Я попытка:

[*]группировать по всем демографическим признакам
[*]применить функцию к каждому временному ряду подсчета населения по демографической группе (для этого требуется манипулировать как столбцом даты, так и столбцом населения)
[*]создать новый столбец в исходном (несгруппированном) DataFrame на основе этой функции

Функция в (2) воздействует на существующий столбец населения с отсутствующими значениями, перераспределяя подсчеты после разрыва назад по пробелу. Я считаю, что функция работает так, как задумано, но я изо всех сил пытаюсь встроить ее в контекст группировки и превратить в новый столбец в DataFrame.
Вот пример данных:

Код: Выделить всё

          age          race     gender         date       population
0       15-24          AAPI       Male   2020-01-01              1.0
1       15-24          AAPI       Male   2020-01-02              2.0
2       15-24          AAPI       Male   2020-01-03              2.0
...
7       15-24         Black     Female   2020-01-01              0.0
8       15-24         Black     Female   2020-01-02              NaN
9       15-24         Black     Female   2020-01-03              3.0

Для приведенного выше тривиального примера желаемый результат будет следующим:

Код: Выделить всё

          age          race     gender         date       population   interpolated
0       15-24          AAPI       Male   2020-01-01              1.0            1.0
1       15-24          AAPI       Male   2020-01-02              2.0            2.0
2       15-24          AAPI       Male   2020-01-03              2.0            2.0
...
7       15-24         Black     Female   2020-01-01              0.0            0.0
8       15-24         Black     Female   2020-01-02              NaN            1.5
9       15-24         Black     Female   2020-01-03              3.0            1.5

Я создал следующую функцию, которая принимает входной список промежутков между датами:

Код: Выделить всё

gaps = [
{
"gap": [2020-01-02],
"day_after": 2020-01-03,
}
]

def bfill_pop(gaps, group):
for el in gaps:
fill_val = group.loc[group["date"] == el["day_after"], "Admissions"] / (
len(el["gap"]) + 1
)
group.loc[group["date"].isin(el["gap"]), "population"] = fill_val
group.loc[group["date"] == el["day_after"], "population"] = fill_val
return group.rename(columns={"population": "interpolated"})["interpolated"]

Когда я пытаюсь применить это к DataFrame с помощью функций apply() или Transform(), я получаю ошибки, например:

Код: Выделить всё

df["interpolated"] = df.groupby(["age", "race", "gender"]).apply(
lambda g: bfill_pop(gaps, g)
)

Код: Выделить всё

> ValueError: cannot handle a non-unique multi-index!

Есть ли способ сделать это с помощью функций применения или преобразования?

Подробнее здесь: https://stackoverflow.com/questions/784 ... le-columns

1715193647

Anonymous

У меня есть DataFrame с данными о численности населения по комбинации категориальных демографических характеристик и дат, с некоторыми пропущенными значениями (одинаковыми для всех комбинаций) на каждую дату, что представляет собой пробелы в данных.
Я попытка:

[*]группировать по всем демографическим признакам
[*]применить функцию к каждому временному ряду подсчета населения по демографической группе (для этого требуется манипулировать как столбцом даты, так и столбцом населения)
[*]создать новый столбец в исходном (несгруппированном) DataFrame на основе этой функции

Функция в (2) воздействует на существующий столбец населения с отсутствующими значениями, перераспределяя подсчеты после разрыва назад по пробелу. Я считаю, что функция работает так, как задумано, но я изо всех сил пытаюсь встроить ее в контекст группировки и превратить в новый столбец в DataFrame.
Вот пример данных: 
[code]          age          race     gender         date       population
0       15-24          AAPI       Male   2020-01-01              1.0
1       15-24          AAPI       Male   2020-01-02              2.0
2       15-24          AAPI       Male   2020-01-03              2.0
...
7       15-24         Black     Female   2020-01-01              0.0
8       15-24         Black     Female   2020-01-02              NaN
9       15-24         Black     Female   2020-01-03              3.0
[/code]
Для приведенного выше тривиального примера желаемый результат будет следующим:
[code]          age          race     gender         date       population   interpolated
0       15-24          AAPI       Male   2020-01-01              1.0            1.0
1       15-24          AAPI       Male   2020-01-02              2.0            2.0
2       15-24          AAPI       Male   2020-01-03              2.0            2.0
...
7       15-24         Black     Female   2020-01-01              0.0            0.0
8       15-24         Black     Female   2020-01-02              NaN            1.5
9       15-24         Black     Female   2020-01-03              3.0            1.5
[/code]
Я создал следующую функцию, которая принимает входной список промежутков между датами:
[code]gaps = [
{
"gap": [2020-01-02],
"day_after": 2020-01-03,
}
]

def bfill_pop(gaps, group):
for el in gaps:
fill_val = group.loc[group["date"] == el["day_after"], "Admissions"] / (
len(el["gap"]) + 1
)
group.loc[group["date"].isin(el["gap"]), "population"] = fill_val
group.loc[group["date"] == el["day_after"], "population"] = fill_val
return group.rename(columns={"population": "interpolated"})["interpolated"]
[/code]
Когда я пытаюсь применить это к DataFrame с помощью функций apply() или Transform(), я получаю ошибки, например:[code]df["interpolated"] = df.groupby(["age", "race", "gender"]).apply(
lambda g: bfill_pop(gaps, g)
)
[/code]
[code]> ValueError: cannot handle a non-unique multi-index!
[/code]
Есть ли способ сделать это с помощью функций применения или преобразования? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78450597/creating-a-new-dataframe-column-from-application-of-function-to-multiple-columns[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Группировать по столбцам и распределять значения по нескольким столбцам на основе значения [дубликат]

Последнее сообщение Anonymous « 12 ноя 2024, 18:49
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 18:49 » в форуме Python

Я хочу выполнить операцию, при которой значения столбца распределяются по новым столбцам на основе тех же значений в другом столбце. См. пример ниже
import pandas as pd
pd.DataFrame({'A': , 'B': })

A B
0 a x1
1 a x2
2 b x3
3 b x4

Я хочу...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 18:49
Polars применяет одну и ту же пользовательскую функцию к нескольким столбцам в группе по

Последнее сообщение Anonymous « 07 дек 2024, 02:04
Добавлено в форуме Python

Anonymous » 07 дек 2024, 02:04 » в форуме Python

Как лучше всего применить пользовательскую функцию к нескольким столбцам в Polars? В частности, мне нужна функция для ссылки на другой столбец в кадре данных. Допустим, у меня есть следующее:
df = pl.DataFrame({
'group': ,
'other': ,
'num_obs': ,...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 02:04
Как применить функцию к нескольким столбцам в DataFrame Pandas за один раз

Последнее сообщение Anonymous « 18 фев 2025, 00:26
Добавлено в форуме Python

Anonymous » 18 фев 2025, 00:26 » в форуме Python

Я часто имею дело с данными, которые плохо отформатированы (то есть числовые поля не являются согласованными и т. Д.)

Могут быть и другие способы, о которых я не знаю, но Способ форматирования одного столбца в DataFrame - это использование функции...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
18 фев 2025, 00:26
Удаление рядов из Pandas, если они соответствуют нескольким столбцам другой строки одинаковой DataFrame

Последнее сообщение Anonymous « 03 июл 2025, 11:10
Добавлено в форуме Python

Anonymous » 03 июл 2025, 11:10 » в форуме Python

Я пытаюсь удалить все строки, в которых общее значение, первое и второе, равно строке, которая отмечена меткой M в рамке сетки данных:
import pandas as pd

data = {
'netting': ,
'Total': ,
'first': ,
'second': ,
'lable':
}

df =...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
03 июл 2025, 11:10
Удаление рядов из Pandas, если они соответствуют нескольким столбцам другой строки одинаковой DataFrame

Последнее сообщение Anonymous « 03 июл 2025, 16:01
Добавлено в форуме Python

Anonymous » 03 июл 2025, 16:01 » в форуме Python

Я пытаюсь удалить все строки, в которых общее значение, первое и второе, равно строке, которая отмечена меткой M в рамке сетки данных:
import pandas as pd

data = {
'netting': ,
'Total': ,
'first': ,
'second': ,
'lable':
}

df =...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
03 июл 2025, 16:01

Вернуться в «Python»