Как обрабатывать несколько форматов даты в одном столбце с помощью PySpark? - Цифровое Кемерово

Как обрабатывать несколько форматов даты в одном столбце с помощью PySpark? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как обрабатывать несколько форматов даты в одном столбце с помощью PySpark?

Цитата

Сообщение Anonymous » 25 сен 2024, 19:05

Я работаю с DataFrame в PySpark, который содержит столбец с именем datdoc, который имеет несколько форматов даты, как показано ниже:

Код: Выделить всё

datdoc
07-SEP-24
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-24
07-SEP-24
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-2024

Мне нужно преобразовать эти даты в формат по умолчанию. Я пробовал следующие подходы, но столкнулся с проблемами.

Первая попытка: использование CASE WHEN

Для обработки нескольких форматов дат я использовал следующую полезную нагрузку:

Код: Выделить всё

columns = {'field_name': 'datdoc', 'current_format': ['dd-MMM-yy', 'dd-MMM-yyyy'], 'data_type': 'Date'}
dateexpression = Column

Вторая попытка: анализ одного формата

Я также пробовал упростить до один формат:

Код: Выделить всё

columns = {'field_name': 'datdoc', 'current_format': ['dd-MMM-yy'], 'data_type': 'Date'}
date_expression = Column

Функция Python

Код: Выделить всё

def change_date_format(self, columns) -> None:
def _convert_date_format(field_name: str, current_format: list, is_timestamp: bool) -> F.Column:
base_function = F.to_timestamp if is_timestamp else F.to_date
expression = None

if len(current_format) == 1:
return base_function(F.col(field_name), current_format[0]).alias(field_name)
else:
for fmt in current_format:
current_expr = base_function(F.col(field_name), fmt)
if expression is None:
expression = F.when(current_expr.isNotNull(), current_expr)
else:
expression = expression.when(current_expr.isNotNull(), current_expr)

return expression.otherwise(F.lit(None)).alias(field_name)

cols = {col["field_name"] for col in columns}
date_expressions = []

for col in columns:
if col["data_type"] in ["DateTime", "Time"]:
date_expressions.append(_convert_date_format(col["field_name"], col["current_format"], True))
elif col["data_type"] == "Date":
date_expressions.append(_convert_date_format(col["field_name"], col["current_format"], False))

expression = [F.col(i) for i in self.df.columns if i not in cols]
self.df = self.df.select(*date_expressions, *expression)

В обоих случаях я столкнулся со следующей ошибкой при попытке проанализировать 07 сентября 2024 г. с использованием дд-МММ-гг:

Код: Выделить всё

24/09/25 21:10:18 WARN TaskSetManager: Lost task 0.0 in stage 9.0 (TID 7) (rhy-4 executor driver): org.apache.spark.SparkUpgradeException: [INCONSISTENT_BEHAVIOR_CROSS_VERSION.PARSE_DATETIME_BY_NEW_PARSER] You may get a different result due to the upgrading to Spark >= 3.0:
Fail to parse '07-SEP-2024' in the new parser. You can set "spark.sql.legacy.timeParserPolicy" to "LEGACY" to restore the behavior before Spark 3.0, or set to "CORRECTED" and treat it as an invalid datetime string.

Нажмите здесь, чтобы просмотреть всю ошибку
Вопрос
Есть ли способ гарантировать, что недопустимые строки даты возвращаются как NULL вместо неправильного анализа? Один из рассмотренных мной подходов — использование CASE WHEN с шаблоном RegEx в PySpark. Однако сначала я хотел бы изучить возможность исправления моего текущего подхода. Будем очень признательны за любые рекомендации о том, как этого добиться!

Подробнее здесь: https://stackoverflow.com/questions/790 ... th-pyspark

Реклама

1727280345

Anonymous

Я работаю с DataFrame в PySpark, который содержит столбец с именем datdoc, который имеет несколько форматов даты, как показано ниже:
[code]datdoc
07-SEP-24
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-24
07-SEP-24
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-2024
[/code]
Мне нужно преобразовать эти даты в формат по умолчанию. Я пробовал следующие подходы, но столкнулся с проблемами.
[list]
[*][b]Первая попытка: использование CASE WHEN[/b]

Для обработки нескольких форматов дат я использовал следующую полезную нагрузку:
[/list]
[code]columns = {'field_name': 'datdoc', 'current_format': ['dd-MMM-yy', 'dd-MMM-yyyy'], 'data_type': 'Date'}
dateexpression = Column
[/code]
[list]
[*][b]Вторая попытка: анализ одного формата[/b]

Я также пробовал упростить до один формат:
[/list]
[code]columns = {'field_name': 'datdoc', 'current_format': ['dd-MMM-yy'], 'data_type': 'Date'}
date_expression = Column
[/code]
Функция Python
[code]def change_date_format(self, columns) -> None:
def _convert_date_format(field_name: str, current_format: list, is_timestamp: bool) -> F.Column:
base_function = F.to_timestamp if is_timestamp else F.to_date
expression = None

if len(current_format) == 1:
return base_function(F.col(field_name), current_format[0]).alias(field_name)
else:
for fmt in current_format:
current_expr = base_function(F.col(field_name), fmt)
if expression is None:
expression = F.when(current_expr.isNotNull(), current_expr)
else:
expression = expression.when(current_expr.isNotNull(), current_expr)

return expression.otherwise(F.lit(None)).alias(field_name)

cols = {col["field_name"] for col in columns}
date_expressions = []

for col in columns:
if col["data_type"] in ["DateTime", "Time"]:
date_expressions.append(_convert_date_format(col["field_name"], col["current_format"], True))
elif col["data_type"] == "Date":
date_expressions.append(_convert_date_format(col["field_name"], col["current_format"], False))

expression = [F.col(i) for i in self.df.columns if i not in cols]
self.df = self.df.select(*date_expressions, *expression)
[/code]
В обоих случаях я столкнулся со следующей ошибкой при попытке проанализировать 07 сентября 2024 г. с использованием дд-МММ-гг:
[code]24/09/25 21:10:18 WARN TaskSetManager: Lost task 0.0 in stage 9.0 (TID 7) (rhy-4 executor driver): org.apache.spark.SparkUpgradeException: [INCONSISTENT_BEHAVIOR_CROSS_VERSION.PARSE_DATETIME_BY_NEW_PARSER] You may get a different result due to the upgrading to Spark >= 3.0:
Fail to parse '07-SEP-2024' in the new parser. You can set "spark.sql.legacy.timeParserPolicy" to "LEGACY" to restore the behavior before Spark 3.0, or set to "CORRECTED" and treat it as an invalid datetime string.
[/code]
Нажмите здесь, чтобы просмотреть всю ошибку
Вопрос
Есть ли способ гарантировать, что недопустимые строки даты возвращаются как NULL вместо неправильного анализа? Один из рассмотренных мной подходов — использование CASE WHEN с шаблоном RegEx в PySpark. Однако сначала я хотел бы изучить возможность исправления моего текущего подхода. Будем очень признательны за любые рекомендации о том, как этого добиться! 

Подробнее здесь: [url]https://stackoverflow.com/questions/79023865/how-to-handle-multiple-date-formats-in-a-single-column-with-pyspark[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как обрабатывать несколько форматов даты в одном столбце с помощью PySpark?

Последнее сообщение Anonymous « 25 сен 2024, 20:34
Добавлено в форуме Python

Anonymous » 25 сен 2024, 20:34 » в форуме Python

Я работаю с DataFrame в PySpark, который содержит столбец с именем datdoc, который имеет несколько форматов даты, как показано ниже:
datdoc
07-SEP-24
07-SEP-2024
07-SEP-2024
07-SEP-2024
07-SEP-24
07-SEP-24
07-SEP-2024
07-SEP-2024
07-SEP-2024...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 20:34
Есть ли способ сгруппировать данные по значению в одном столбце, чтобы получить сумму содержимого в другом столбце в пан

Последнее сообщение Anonymous « 29 июл 2024, 16:45
Добавлено в форуме Python

Anonymous » 29 июл 2024, 16:45 » в форуме Python

Извините, если это повторяется, я не могу найти ничего, что дало бы мне ответ...
У меня есть кадр данных, содержащий значения пикселей и количество пикселей этой ценности. Выглядит это примерно так:
Value Count
0.1457 900
0.1458 1800
0.1459 900...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
29 июл 2024, 16:45
Как использовать Pandera для перекрестной проверки, присутствуют ли некоторые подстроки в одном столбце в другом столбце

Последнее сообщение Anonymous « 17 сен 2024, 17:48
Добавлено в форуме Python

Anonymous » 17 сен 2024, 17:48 » в форуме Python

У меня есть такая схема DataFrameSchema Pandas:
Schema = DataFrameSchema(
columns={
'Complete_Name': Column(name='Complete_Name', dtype='string', nullable=True),
'Surname': Column(name='Surname', dtype='string', nullable=True),
},...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 17:48
Отмечайте последующие строки после изменения значения в одном столбце A в зависимости от условия в столбце B.

Последнее сообщение Anonymous « 02 окт 2024, 23:09
Добавлено в форуме Python

Anonymous » 02 окт 2024, 23:09 » в форуме Python

I have a problem with the following data:

month
product
version
price
category

1
A
alpha
500
foo

2
A
alpha
500
foo

3
A
alpha
550
foo

4
A
alpha
600
bar

5
A
alpha
500
bar

6
A
alpha
500
faz

7
A
alpha
500
faz

8
A
alpha
500
faz

9...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 23:09
Отмечайте последующие строки после изменения значения в одном столбце A в зависимости от условия в столбце B.

Последнее сообщение Anonymous « 03 окт 2024, 10:57
Добавлено в форуме Python

Anonymous » 03 окт 2024, 10:57 » в форуме Python

I have a problem with the following data:

month
product
version
price
category

1
A
alpha
500
foo

2
A
alpha
500
foo

3
A
alpha
550
foo

4
A
alpha
600
bar

5
A
alpha
500
bar

6
A
alpha
500
faz

7
A
alpha
500
faz

8
A
alpha
500
faz

9...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
03 окт 2024, 10:57

Вернуться в «Python»

Programmiererforum