Код: Выделить всё
Dataset newDs = dataset.filter(functions.to_date(dataset.col("C1"),"dd-MM-yyyy").isNotNull());
Для некоторых неправильных форматов ввода, например:
C1
20032024
20/12/2024
15–202
Он прекрасно работает с использованием предыдущего кода и фильтрует набор данных, но со строками типа:
C1
< tbody>
5-9-2024
20/2 /2024
Выдает исключение SparkUpgradeException. Я получаю следующую трассировку стека:
Код: Выделить всё
org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading to Spark >= 3.0: Fail to parse '5-9-2024' in the new parser. You can set spark.sql.legacy.timeParsePolicy to LEGACY to restore the behavior before Spark 3.0, or set to CORRECTED and treat it as an invalid datetime string
Подробнее здесь: https://stackoverflow.com/questions/790 ... -exception