Удаление дубликатов по столбцу в PySparkPython

Программы на Python
Ответить
Anonymous
 Удаление дубликатов по столбцу в PySpark

Сообщение Anonymous »

У меня есть такой фрейм данных PySpark, но с гораздо большим количеством данных:



user_id
event_date




123
'2024-01-01 14:45:12.00'


123
'2024-01-02 14:45:12.00'


456
'2024-01-01 14:45:12.00'


456
'2024-03-01 14:45:12.00'


Я удаляю дубликаты пользователей, оставляя последнее событие. Я использую что-то вроде этого:

Код: Выделить всё

df = df.orderBy(['user_id', 'event_date'], ascending=False).dropDuplicates(['user_id'])
Когда я искал решение какой-то другой проблемы, я нашел информацию о том, что этот подход может быть недетерминированным. Я делаю это неправильно? Должен ли я вместо этого использовать оконные функции?


Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»