user_id
event_date
123
'2024-01-01 14:45:12.00'
123
'2024-01-02 14:45:12.00'
456
'2024-01-01 14:45:12.00'
456
'2024-03-01 14:45:12.00'
Я удаляю дубликаты пользователей, оставляя последнее событие. Я использую что-то вроде этого:
Код: Выделить всё
df = df.orderBy(['user_id', 'event_date'], ascending=False).dropDuplicates(['user_id'])
Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark
Мобильная версия