Как объединить повторяющиеся наблюдения в Polars? - Цифровое Кемерово

Как объединить повторяющиеся наблюдения в Polars? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как объединить повторяющиеся наблюдения в Polars?

Цитата

Сообщение Anonymous » 03 ноя 2025, 13:45

У меня есть фрейм данных как-

Код: Выделить всё

import polars as pl

df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648']})

Здесь я хотел бы найти дубликаты, учитывая столбцы «last_name» и «firs_name», и если какие-либо дубликаты обнаружены, их соответствующий ssn необходимо свернуть с помощью точки с запятой (;), если SSN не отличаются. если SSN одинаковы, должен присутствовать только один SSN.

ожидаемый результат:

Здесь, поскольку Маллеш Ямулла дублируется и имеет разные SSN, они объединяются с помощью ';'
а в случае джагарини егурлы он имеет уникальный SSN, поэтому берется только один SSN.

Добавлен еще один случай:
Здесь для любого набора столбцов необходимо свести уникальные значения, используя ; из остальных столбцов. здесь по фамилии и имени сведение должно выполняться как по дате рождения, так и по SSN.

Код: Выделить всё

df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648'],
'dob':['10/11/1990','09/16/1991','01/01/1990','10/11/1990','02/14/1983']   })

Другой случай:

Код: Выделить всё

df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648'],
'dob':['10/11/1990','09/16/1991','01/01/1990','','02/14/1983']   })

В случае наличия в поле нулевых значений оно должно рассматриваться как пустое, а не как значение.
";11/10/1990" для записи Маллеш Ямулла должно быть просто "10/11/1990".

Подробнее здесь: https://stackoverflow.com/questions/734 ... -in-polars

1762166720

Anonymous

У меня есть фрейм данных как-
[code]import polars as pl

df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648']})
[/code]
Здесь я хотел бы найти дубликаты, учитывая столбцы «last_name» и «firs_name», и если какие-либо дубликаты обнаружены, их соответствующий ssn необходимо свернуть с помощью точки с запятой (;), если SSN не отличаются. если SSN одинаковы, должен присутствовать только один SSN.
[img]https://i.sstatic.net/Hjmbg.png[/img]

ожидаемый результат:
[img]https://i.sstatic.net/Ne2s5.png[/img]

Здесь, поскольку Маллеш Ямулла дублируется и имеет разные SSN, они объединяются с помощью ';'
а в случае джагарини егурлы он имеет уникальный SSN, поэтому берется только один SSN.
[img]https://i.sstatic.net/0ePB6.png[/img]

Добавлен еще один случай:
Здесь для любого набора столбцов необходимо свести уникальные значения, используя ; из остальных столбцов. здесь по фамилии и имени сведение должно выполняться как по дате рождения, так и по SSN.
[code]df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648'],
'dob':['10/11/1990','09/16/1991','01/01/1990','10/11/1990','02/14/1983']   })

[/code]
[img]https://i.sstatic.net/ziXS1.png[/img]
Другой случай:
[code]df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648'],
'dob':['10/11/1990','09/16/1991','01/01/1990','','02/14/1983']   })

[/code]
В случае наличия в поле нулевых значений оно должно рассматриваться как пустое, а не как значение.
";11/10/1990" для записи Маллеш Ямулла должно быть просто "10/11/1990".
[img]https://i.sstatic.net/4xvHC.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/73472340/how-to-roll-up-duplicate-observations-in-polars[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»