ОДФ? с столбцом? Что лучше обновлять столбцы в pyspark? - Цифровое Кемерово

ОДФ? с столбцом? Что лучше обновлять столбцы в pyspark? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

ОДФ? с столбцом? Что лучше обновлять столбцы в pyspark?

Цитата

Сообщение Anonymous » 02 дек 2024, 22:31

Если мы просто реализуем простую функцию для обновления столбцов (на месте) в pyspark, мы можем использовать:

Код: Выделить всё
```
whenСинтаксис 
```
, например

Код: Выделить всё

  df.withColumn("col_name", when(col("reference")==1, False).otherwise(col("col_name"))

Код: Выделить всё
```
udf функция. например
[/list]
  def update_col(reference, col_name):
if reference == 1:
return False
else:
return col_name

update_udf = udf(update_col, BooleanType())
df.withColumn("col_name", update_udf(col("reference"), col("col_name")))
```
Предположим, что df довольно большой, примерно миллиард строк.
Какой из них мы будем использовать? Кто-нибудь пробовал оба способа и сравнивал производительность, например, скорость и стоимость памяти? Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/792 ... in-pyspark

1733167872

Anonymous

Если мы просто реализуем простую функцию для обновления столбцов (на месте) в pyspark, мы можем использовать:
[list]
[*][code]whenСинтаксис [/code], например
[/list]
[code]  df.withColumn("col_name", when(col("reference")==1, False).otherwise(col("col_name"))
[/code]
[list]
[*][code]udf функция. например
[/list]
  def update_col(reference, col_name):
if reference == 1:
return False
else:
return col_name

update_udf = udf(update_col, BooleanType())
df.withColumn("col_name", update_udf(col("reference"), col("col_name")))

[/code]
Предположим, что df довольно большой, примерно миллиард строк.
Какой из них мы будем использовать? Кто-нибудь пробовал оба способа и сравнивал производительность, например, скорость и стоимость памяти? Спасибо! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79245000/udf-withcolumn-which-is-better-to-update-columns-in-pyspark[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»