У меня есть столбец, значение которого:
Код: Выделить всё
"{""ab"": 0.7220268151565864, ""cd"": 0.2681795338834256, ""ef"": 1.0, ""gh"": 1.0, ""ij"": 0.9266362339932378, ""kl"": 0.7002315808130385}"
Я использую UDF для преобразования этого результата в конечный результат, который выглядит следующим образом:
Код: Выделить всё
{"ab": 0.7220268151565864, "cd": 0.2681795338834256, "ef": 1.0, "gh": 1.0, "ij": 0.9266362339932378, "kl": 0.7002315808130385}
Но эта пользовательская функция занимает очень много времени, поскольку таких столбцов несколько, и мне приходится запускать пользовательскую функцию несколько раз. Может ли кто-нибудь помочь, если окончательного результата можно достичь, используя только встроенные функции PySpark, чтобы повысить производительность?
Подробнее здесь:
https://stackoverflow.com/questions/786 ... remove-udf