ОДФ? с столбцом? Что лучше обновлять столбцы в pyspark?Python

Программы на Python
Ответить
Anonymous
 ОДФ? с столбцом? Что лучше обновлять столбцы в pyspark?

Сообщение Anonymous »

Если мы просто реализуем простую функцию для обновления столбцов (на месте) в pyspark, мы можем использовать:

Код: Выделить всё

  df.withColumn("col_name", when(col("reference")==1, False).otherwise(col("col_name"))
  • Код: Выделить всё

    udf функция. например
    [/list]
      def update_col(reference, col_name):
    if reference == 1:
    return False
    else:
    return col_name
    
    update_udf = udf(update_col, BooleanType())
    df.withColumn("col_name", update_udf(col("reference"), col("col_name")))
    
    
    Предположим, что df довольно большой, примерно миллиард строк.
    Какой из них мы будем использовать? Кто-нибудь пробовал оба способа и сравнивал производительность, например, скорость и стоимость памяти? Спасибо!

    Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»