Я использую блокнот Databricks для обработки некоторых больших файлов, привожу пример кода, который используется в блокноте. Этот код работал без сбоев, когда я использовал режим доступа к кластеру, который не был общим. Но теперь мы переходим в режим общего доступа, и это дает мне некоторые ошибки.
Версия времени выполнения — 13.3LTS с искрой 3.4.1
Код: Выделить всё
data = [("xx",cc,"sdf"),("abcd",xx,"jkhj")]
cols = ["value","x1","x2"]
df = spark.createDataFrame(data,schema="value STRING,x1 STRING,x2 STRING")
MY_udf= udf(xxx, StringType())
updated_df = df.withColumn("updated_value", MY_udf(df["VALUE"]))
display(updated_df)
SparkRuntimeException: [UDF_ERROR.PAYLOAD] Execution of function failed XXX - failed to set payload
INVALID_ARGUMENT: /lib/x86_64-linux-gnu/libc.so.6: version `GLIBC_2.33' not found (required by /local_disk0/.ephemeral_nfs/envs/pythonEnv-1860d5f1-5b01-457c-97c7-e5955a17ca8e/lib/python3.10/site-packages/xxx.cpython-310-x86_64-linux-gnu.so)
Источник: https://stackoverflow.com/questions/781 ... -payload-e