Polars: как удалить первую строку в случае дублирования идентификаторов

Polars: как удалить первую строку в случае дублирования идентификаторов ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Polars: как удалить первую строку в случае дублирования идентификаторов

Цитата

Сообщение Anonymous » 04 ноя 2025, 16:53

У меня есть фрейм данных типа

Код: Выделить всё

pl.DataFrame({"id":[1,2,2,2,2,3,3,3],"value":[5,6,1,2,3,30,10,20]})
┌─────┬───────┐
│ id  ┆ value │
│ --- ┆ ---   │
│ i64 ┆ i64   │
╞═════╪═══════╡
│ 1   ┆ 5     │
│ 2   ┆ 6     │
│ 2   ┆ 1     │
│ 2   ┆ 2     │
│ 2   ┆ 3     │
│ 3   ┆ 30    │
│ 3   ┆ 10    │
│ 3   ┆ 20    │
└─────┴───────┘

В случае нескольких строк с одинаковым идентификатором значение первой строки всегда является суммой значений остальных строк. Моя цель — удалить эти суммы из фрейма данных, т.е. я хочу получить

Код: Выделить всё

┌─────┬───────┐
│ id  ┆ value │
│ --- ┆ ---   │
│ i64 ┆ i64   │
╞═════╪═══════╡
│ 1   ┆ 5     │
│ 2   ┆ 1     │
│ 2   ┆ 2     │
│ 2   ┆ 3     │
│ 3   ┆ 10    │
│ 3   ┆ 20    │
└─────┴───────┘

Есть ли какой-нибудь эффективный способ сделать это в полярах? Я знаю о group_by, но не знаю, как реализовать условную логику, основанную на количестве элементов в списке.

Подробнее здесь: https://stackoverflow.com/questions/772 ... licate-ids

1762264410

Anonymous

У меня есть фрейм данных типа
[code]pl.DataFrame({"id":[1,2,2,2,2,3,3,3],"value":[5,6,1,2,3,30,10,20]})
┌─────┬───────┐
│ id  ┆ value │
│ --- ┆ ---   │
│ i64 ┆ i64   │
╞═════╪═══════╡
│ 1   ┆ 5     │
│ 2   ┆ 6     │
│ 2   ┆ 1     │
│ 2   ┆ 2     │
│ 2   ┆ 3     │
│ 3   ┆ 30    │
│ 3   ┆ 10    │
│ 3   ┆ 20    │
└─────┴───────┘
[/code]
В случае нескольких строк с одинаковым идентификатором значение первой строки всегда является суммой значений остальных строк. Моя цель — удалить эти суммы из фрейма данных, т.е. я хочу получить
[code]┌─────┬───────┐
│ id  ┆ value │
│ --- ┆ ---   │
│ i64 ┆ i64   │
╞═════╪═══════╡
│ 1   ┆ 5     │
│ 2   ┆ 1     │
│ 2   ┆ 2     │
│ 2   ┆ 3     │
│ 3   ┆ 10    │
│ 3   ┆ 20    │
└─────┴───────┘
[/code]
Есть ли какой-нибудь эффективный способ сделать это в полярах? Я знаю о group_by, но не знаю, как реализовать условную логику, основанную на количестве элементов в списке. 

Подробнее здесь: [url]https://stackoverflow.com/questions/77214290/polars-how-to-remove-the-first-row-in-case-of-duplicate-ids[/url]