Итак, по сути, я хочу сделать следующее: если значение в одном столбце не равно нулю, я выполню регулярное выражение для этого столбца, в противном случае я выполню регулярное выражение для другого столбца.
Мой первоначальный запрос выглядел так:
Код: Выделить всё
import pyspark.sql.functions as F
df.withColumn("new_column", F.when(F.col("column_a").isNotNull,
F.regexp_extract('column_a', 'myregex', 1))
.otherwise(F.regexp_extract('column_b', 'myotherregex', 1)))
Код: Выделить всё
df.withColumn("new_column", F.when(F.col("column_a").isNotNull, F.lit("A"))
.otherwise(F.lit("B")))
Когда я ищу и нахожу примеры людей, делающих то же самое, на мой неопытный взгляд кажется, что это должно сработать. Что мне не хватает?
Подробнее здесь: https://stackoverflow.com/questions/747 ... lumn-error