Потоковая передача Spark с помощью Python: как добавить столбец UUID?Python

Программы на Python
Ответить
Anonymous
 Потоковая передача Spark с помощью Python: как добавить столбец UUID?

Сообщение Anonymous »

Я хотел бы добавить столбец со сгенерированным идентификатором в свой фрейм данных. Я пробовал:

Код: Выделить всё

uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())
однако, когда я это делаю, в мой выходной каталог ничего не записывается. Когда я удаляю эти строки, все работает нормально, поэтому должна быть какая-то ошибка, но я ничего не вижу в консоли.

Я пробовал использовать monotonically_increasing_id() вместо генерации UUID, но в ходе моего тестирования это привело к появлению большого количества дубликатов. Мне нужен уникальный идентификатор (не обязательно UUID).

Как я могу это сделать?

Подробнее здесь: https://stackoverflow.com/questions/497 ... uid-column
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»