Удаление дубликатов по столбцу в PySpark

Удаление дубликатов по столбцу в PySpark ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Удаление дубликатов по столбцу в PySpark

Цитата

Сообщение Anonymous » 06 дек 2024, 15:53

У меня есть такой фрейм данных PySpark, но с гораздо большим количеством данных:

user_id
event_date

123
'2024-01-01 14:45:12.00'

123
'2024-01-02 14:45:12.00'

456
'2024-01-01 14:45:12.00'

456
'2024-03-01 14:45:12.00'

Я удаляю дубликаты пользователей, оставляя последнее событие. Я использую что-то вроде этого:

Код: Выделить всё

df = df.orderBy(['user_id', 'event_date'], ascending=False).dropDuplicates(['user_id'])

Когда я искал решение какой-то другой проблемы, я нашел информацию о том, что этот подход может быть недетерминированным. Я делаю это неправильно? Должен ли я вместо этого использовать оконные функции?

Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark

1733489587

Anonymous

У меня есть такой фрейм данных PySpark, но с гораздо большим количеством данных:



user_id
event_date




123
'2024-01-01 14:45:12.00'


123
'2024-01-02 14:45:12.00'


456
'2024-01-01 14:45:12.00'


456
'2024-03-01 14:45:12.00'


Я удаляю дубликаты пользователей, оставляя последнее событие. Я использую что-то вроде этого:
[code]df = df.orderBy(['user_id', 'event_date'], ascending=False).dropDuplicates(['user_id'])
[/code]
Когда я искал решение какой-то другой проблемы, я нашел информацию о том, что этот подход может быть недетерминированным. Я делаю это неправильно? Должен ли я вместо этого использовать оконные функции?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79257679/dropping-duplicates-by-column-in-pyspark[/url]