import polars as pl
df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'],
'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'],
'ssn':['1234','7847','0648','4567','0648']})
Здесь я хотел бы найти дубликаты, учитывая столбцы «last_name» и «firs_name», и если какие-либо дубликаты обнаружены, их соответствующий ssn необходимо свернуть с помощью точки с запятой (;), если SSN не отличаются. если SSN одинаковы, должен присутствовать только один SSN.
ожидаемый результат:
Здесь, поскольку Маллеш Ямулла дублируется и имеет разные SSN, они объединяются с помощью ';'
а в случае джагарини егурлы он имеет уникальный SSN, поэтому берется только один SSN.
Добавлен еще один случай:
Здесь для любого набора столбцов необходимо свести уникальные значения, используя ; из остальных столбцов. здесь по фамилии и имени сведение должно выполняться как по дате рождения, так и по SSN.
В случае наличия в поле нулевых значений оно должно рассматриваться как пустое, а не как значение.
";11/10/1990" для записи Маллеш Ямулла должно быть просто "10/11/1990".
У меня есть фрейм данных как- [code]import polars as pl
df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'], 'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'], 'ssn':['1234','7847','0648','4567','0648']}) [/code] Здесь я хотел бы найти дубликаты, учитывая столбцы «last_name» и «firs_name», и если какие-либо дубликаты обнаружены, их соответствующий ssn необходимо свернуть с помощью точки с запятой (;), если SSN не отличаются. если SSN одинаковы, должен присутствовать только один SSN. [img]https://i.sstatic.net/Hjmbg.png[/img]
Здесь, поскольку Маллеш Ямулла дублируется и имеет разные SSN, они объединяются с помощью ';' а в случае джагарини егурлы он имеет уникальный SSN, поэтому берется только один SSN. [img]https://i.sstatic.net/0ePB6.png[/img]
Добавлен еще один случай: Здесь для любого набора столбцов необходимо свести уникальные значения, используя ; из остальных столбцов. здесь по фамилии и имени сведение должно выполняться как по дате рождения, так и по SSN. [code]df = pl.DataFrame({'last_name':['mallesh','bhavik','jagarini','mallesh','jagarini'], 'first_name':['yamulla','vemulla','yegurla','yamulla','yegurla'], 'ssn':['1234','7847','0648','4567','0648'], 'dob':['10/11/1990','09/16/1991','01/01/1990','10/11/1990','02/14/1983'] })
[/code] В случае наличия в поле нулевых значений оно должно рассматриваться как пустое, а не как значение. ";11/10/1990" для записи Маллеш Ямулла должно быть просто "10/11/1990". [img]https://i.sstatic.net/4xvHC.png[/img]