Как игнорировать столбцы значений EMPTY/NULL при группировке в полях Python? - Цифровое Кемерово

Как игнорировать столбцы значений EMPTY/NULL при группировке в полях Python? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как игнорировать столбцы значений EMPTY/NULL при группировке в полях Python?

Цитата

Сообщение Anonymous » 01 ноя 2025, 20:09

У меня есть фрейм данных.

Код: Выделить всё

df = pl.DataFrame({
'last_name':['James','Warner','Marino','James','Warner','Marino','James'],
'first_name':['Horn','Bro','Kach','Horn','Bro','Kach','Horn'],
'dob':['03/06/1990','09/16/1990','03/06/1990','','03/06/1990','','']
})

Я применяю группировку к столбцам «последний», «первый» и «dob», чтобы получить значения в виде

Код: Выделить всё

df.group_by('last_name','first_name','dob').len()

Код: Выделить всё

shape: (6, 4)
┌───────────┬────────────┬────────────┬─────┐
│ last_name ┆ first_name ┆ dob        ┆ len │
│ ---       ┆ ---        ┆ ---        ┆ --- │
│ str       ┆ str        ┆ str        ┆ u32 │
╞═══════════╪════════════╪════════════╪═════╡
│ Warner    ┆ Bro        ┆ 09/16/1990 ┆ 1   │
│ Marino    ┆ Kach       ┆ 03/06/1990 ┆ 1   │
│ Marino    ┆ Kach       ┆            ┆ 1   │
│ James     ┆ Horn       ┆            ┆ 2   │ # NOT OK
│ James     ┆ Horn       ┆ 03/06/1990 ┆ 1   │
│ Warner    ┆ Bro        ┆ 03/06/1990 ┆ 1   │
└───────────┴────────────┴────────────┴─────┘

Здесь я хотел бы игнорировать значения NULL/EMPTY в группирующих столбцах.
Поскольку у Джеймса Хорна есть два пустых DOB, их не следует включать в операцию группировки.
Вот ожидаемый результат.

Код: Выделить всё

shape: (4, 4)
┌───────────┬────────────┬────────────┬─────┐
│ last_name ┆ first_name ┆ dob        ┆ len │
│ ---       ┆ ---        ┆ ---        ┆ --- │
│ str       ┆ str        ┆ str        ┆ u32 │
╞═══════════╪════════════╪════════════╪═════╡
│ Warner    ┆ Bro        ┆ 03/06/1990 ┆ 1   │
│ James     ┆ Horn       ┆ 03/06/1990 ┆ 1   │
│ Marino    ┆ Kach       ┆ 03/06/1990 ┆ 1   │
│ Warner    ┆ Bro        ┆ 09/16/1990 ┆ 1   │
└───────────┴────────────┴────────────┴─────┘

Конечно, мы можем отфильтровать столбец, как показано ниже, прежде чем перейти к группировке как

Код: Выделить всё

df.filter(pl.col.dob != '').group_by('last_name','first_name','dob').len()

Но что, если мне нужно указать 10 столбцов в операции фильтра? Мне нужно писать их один за другим.
Есть ли другое решение?

Подробнее здесь: https://stackoverflow.com/questions/742 ... hon-polars

1762016964

Anonymous

У меня есть фрейм данных.
[code]df = pl.DataFrame({
'last_name':['James','Warner','Marino','James','Warner','Marino','James'],
'first_name':['Horn','Bro','Kach','Horn','Bro','Kach','Horn'],
'dob':['03/06/1990','09/16/1990','03/06/1990','','03/06/1990','','']
})
[/code]
Я применяю группировку к столбцам «последний», «первый» и «dob», чтобы получить значения в виде
[code]df.group_by('last_name','first_name','dob').len()
[/code]
[code]shape: (6, 4)
┌───────────┬────────────┬────────────┬─────┐
│ last_name ┆ first_name ┆ dob        ┆ len │
│ ---       ┆ ---        ┆ ---        ┆ --- │
│ str       ┆ str        ┆ str        ┆ u32 │
╞═══════════╪════════════╪════════════╪═════╡
│ Warner    ┆ Bro        ┆ 09/16/1990 ┆ 1   │
│ Marino    ┆ Kach       ┆ 03/06/1990 ┆ 1   │
│ Marino    ┆ Kach       ┆            ┆ 1   │
│ James     ┆ Horn       ┆            ┆ 2   │ # NOT OK
│ James     ┆ Horn       ┆ 03/06/1990 ┆ 1   │
│ Warner    ┆ Bro        ┆ 03/06/1990 ┆ 1   │
└───────────┴────────────┴────────────┴─────┘
[/code]
Здесь я хотел бы игнорировать значения NULL/EMPTY в группирующих столбцах.
Поскольку у Джеймса Хорна есть два пустых DOB, их не следует включать в операцию группировки.
Вот ожидаемый результат.
[code]shape: (4, 4)
┌───────────┬────────────┬────────────┬─────┐
│ last_name ┆ first_name ┆ dob        ┆ len │
│ ---       ┆ ---        ┆ ---        ┆ --- │
│ str       ┆ str        ┆ str        ┆ u32 │
╞═══════════╪════════════╪════════════╪═════╡
│ Warner    ┆ Bro        ┆ 03/06/1990 ┆ 1   │
│ James     ┆ Horn       ┆ 03/06/1990 ┆ 1   │
│ Marino    ┆ Kach       ┆ 03/06/1990 ┆ 1   │
│ Warner    ┆ Bro        ┆ 09/16/1990 ┆ 1   │
└───────────┴────────────┴────────────┴─────┘
[/code]
Конечно, мы можем отфильтровать столбец, как показано ниже, прежде чем перейти к группировке как
[code]df.filter(pl.col.dob != '').group_by('last_name','first_name','dob').len()
[/code]
Но что, если мне нужно указать 10 столбцов в операции фильтра? Мне нужно писать их один за другим.
Есть ли другое решение? 

Подробнее здесь: [url]https://stackoverflow.com/questions/74298432/how-to-ignore-empty-null-value-columns-while-grouping-in-python-polars[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»