Pyspark новый столбец, если в противном случае возникает ошибка «должен быть столбец»

Pyspark новый столбец, если в противном случае возникает ошибка «должен быть столбец» ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Pyspark новый столбец, если в противном случае возникает ошибка «должен быть столбец»

Цитата

Сообщение Anonymous » 17 дек 2024, 16:33

У меня есть DataFrame в PySpark, и я хотел бы добавить новый столбец на основе значения в другом столбце. Я знаю, что это довольно распространенное явление, и я искал и пробовал множество разных способов, но всегда получал сообщение об ошибке TypeError: условие должно быть столбцом.
Итак, по сути, я хочу сделать следующее: если значение в одном столбце не равно нулю, я выполню регулярное выражение для этого столбца, в противном случае я выполню регулярное выражение для другого столбца.
Мой первоначальный запрос выглядел так:

Код: Выделить всё

import pyspark.sql.functions as F

df.withColumn("new_column", F.when(F.col("column_a").isNotNull,
F.regexp_extract('column_a', 'myregex', 1))
.otherwise(F.regexp_extract('column_b', 'myotherregex', 1)))

Это привело к указанной ошибке. Поскольку я упрощал поиск ошибки, мне так и не удалось заставить ее работать. Таким образом, даже этот упрощенный пример завершается той же ошибкой:

Код: Выделить всё

df.withColumn("new_column", F.when(F.col("column_a").isNotNull, F.lit("A"))
.otherwise(F.lit("B")))

Я также пытался сослаться на columns_a следующим образом, но безуспешно: df["column_a"]
Когда я ищу и нахожу примеры людей, делающих то же самое, на мой неопытный взгляд кажется, что это должно сработать. Что мне не хватает?

Подробнее здесь: https://stackoverflow.com/questions/747 ... lumn-error

1734442412

Anonymous

У меня есть DataFrame в PySpark, и я хотел бы добавить новый столбец на основе значения в другом столбце. Я знаю, что это довольно распространенное явление, и я искал и пробовал множество разных способов, но всегда получал сообщение об ошибке TypeError: условие должно быть столбцом.
Итак, по сути, я хочу сделать следующее: если значение в одном столбце не равно нулю, я выполню регулярное выражение для этого столбца, в противном случае я выполню регулярное выражение для другого столбца.
Мой первоначальный запрос выглядел так:
[code]import pyspark.sql.functions as F

df.withColumn("new_column", F.when(F.col("column_a").isNotNull,
F.regexp_extract('column_a', 'myregex', 1))
.otherwise(F.regexp_extract('column_b', 'myotherregex', 1)))
[/code]
Это привело к указанной ошибке. Поскольку я упрощал поиск ошибки, мне так и не удалось заставить ее работать. Таким образом, даже этот упрощенный пример завершается той же ошибкой:
[code]df.withColumn("new_column", F.when(F.col("column_a").isNotNull, F.lit("A"))
.otherwise(F.lit("B")))
[/code]
Я также пытался сослаться на columns_a следующим образом, но безуспешно: df["column_a"]
Когда я ищу и нахожу примеры людей, делающих то же самое, на мой неопытный взгляд кажется, что это должно сработать. Что мне не хватает? 

Подробнее здесь: [url]https://stackoverflow.com/questions/74732143/pyspark-new-column-when-otherwise-results-in-should-be-a-column-error[/url]