Pyspark toPandas() Ошибка наносекундной метки времени за пределами

Pyspark toPandas() Ошибка наносекундной метки времени за пределами ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Pyspark toPandas() Ошибка наносекундной метки времени за пределами

Цитата

Сообщение Anonymous » 19 фев 2026, 22:19

Я пытаюсь преобразовать DataFrame Spark в Pandas. Однако выдает следующую ошибку:

Код: Выделить всё

OutOfBoundsDatetime: Out of bounds nanosecond timestamp:

Есть ли обходной путь?
Это работает, если я удаляю все столбцы с временными метками, но я хотел бы перенести всю таблицу в Pandas.
Я никогда не сталкивался с ошибкой при переносе Spark DataFrame в Pandas.
Это достаточно большая таблица, содержащая несколько столбцов с временными метками. Некоторые столбцы имеют формат ГГГГ-ММ-ДД, а некоторые – столбцы типа ГГГГ-ММ-ДД 00:00:00.
Неизвестное количество столбцов содержит несуществующие переменные года.
Ниже приведен пример.

Код: Выделить всё

data = {
"ID": ["AB", "CD", "DE", "EF"],
"year": [2016, 2017, 2018, 2018],
"time_var_1": [
"3924-01-04 00:00:00",
"4004-12-12 12:38:00",
"2018-10-02 01:32:23",
"2018-04-05 00:00:00",
],
}

df = pd.DataFrame(data)

sdf = spark.createDataFrame(df)

sdf = sdf.withColumn("time_var_1", spark_fns.to_timestamp(spark_fns.col("time_var_1")))

Я не очень хорошо знаком с PySpark, поэтому не уверен, существует ли эквивалент error='coerce' при переносе таблицы из Spark DataFrame в Pandas.

Подробнее здесь: https://stackoverflow.com/questions/663 ... tamp-error

1771528770

Anonymous

Я пытаюсь преобразовать DataFrame Spark в Pandas. Однако выдает следующую ошибку:
[code]OutOfBoundsDatetime: Out of bounds nanosecond timestamp:[/code]
Есть ли обходной путь?
Это работает, если я удаляю все столбцы с временными метками, но я хотел бы перенести всю таблицу в Pandas.
Я никогда не сталкивался с ошибкой при переносе Spark DataFrame в Pandas.
Это достаточно большая таблица, содержащая несколько столбцов с временными метками. Некоторые столбцы имеют формат ГГГГ-ММ-ДД, а некоторые – столбцы типа ГГГГ-ММ-ДД 00:00:00.
Неизвестное количество столбцов содержит несуществующие переменные года.
Ниже приведен пример.
[code]data = {
"ID": ["AB", "CD", "DE", "EF"],
"year": [2016, 2017, 2018, 2018],
"time_var_1": [
"3924-01-04 00:00:00",
"4004-12-12 12:38:00",
"2018-10-02 01:32:23",
"2018-04-05 00:00:00",
],
}

df = pd.DataFrame(data)

sdf = spark.createDataFrame(df)

sdf = sdf.withColumn("time_var_1", spark_fns.to_timestamp(spark_fns.col("time_var_1")))

[/code]
Я не очень хорошо знаком с PySpark, поэтому не уверен, существует ли эквивалент error='coerce' при переносе таблицы из Spark DataFrame в Pandas. 

Подробнее здесь: [url]https://stackoverflow.com/questions/66320966/pyspark-topandas-out-of-bounds-nanosecond-timestamp-error[/url]