Код: Выделить всё
multiplier = udf(lambda x: float(x) * 100.0, FloatType())
df = df.select(multiplier(df['value']).alias('value_percent'))
Потеряна задача 0.0 на этапе 1.0 (TID 1) (драйвер исполнителя 127.0.0.1). :
org.apache.spark.SparkException: работник Python неожиданно завершил работу
....
java.io.EOFException
Но еще более странно то, что тот же код (с той же функцией UDF и тем же набором данных) на самом деле работает с заметкой Jupyter.
Версия Spark: 3.5.3
Версия Python: 3.11.9
ОС: Windows.
Подробнее здесь: https://stackoverflow.com/questions/791 ... d-function
Мобильная версия