Код: Выделить всё
uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())
Я пробовал использовать monotonically_increasing_id() вместо генерации UUID, но в ходе моего тестирования это привело к появлению большого количества дубликатов. Мне нужен уникальный идентификатор (не обязательно UUID).
Как я могу это сделать?
Подробнее здесь: https://stackoverflow.com/questions/497 ... uid-column
Мобильная версия