Предположим, что df довольно большой, примерно миллиард строк.
Какой из них мы будем использовать? Кто-нибудь пробовал оба способа и сравнивал производительность, например, скорость и стоимость памяти? Спасибо!
Если мы просто реализуем простую функцию для обновления столбцов (на месте) в pyspark, мы можем использовать: [list] [*][code]whenСинтаксис [/code], например [/list] [code] df.withColumn("col_name", when(col("reference")==1, False).otherwise(col("col_name")) [/code] [list] [*][code]udf функция. например [/list] def update_col(reference, col_name): if reference == 1: return False else: return col_name
[/code] Предположим, что df довольно большой, примерно миллиард строк. Какой из них мы будем использовать? Кто-нибудь пробовал оба способа и сравнивал производительность, например, скорость и стоимость памяти? Спасибо!