sdf = spark.sql('select * from my_tbl')
pdf = sdf.toPandas()
< /code>
Но получил ошибку: < /p>
ArrowInvalid: Casting from timestamp[us, tz=America/New_York] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000
File , line 1
----> 1 pdf=sdf.toPandas()
Мне просто интересно, как это исправить, или есть в любом случае, чтобы сгенерировать DataFrame Panda, непосредственно вызывая SQL в данных DataBricks?
В Databricks я создал Spark DataFrame и должен конвертировать его в DataFrame Pandas, < /p> [code] sdf = spark.sql('select * from my_tbl') pdf = sdf.toPandas() < /code> Но получил ошибку: < /p> ArrowInvalid: Casting from timestamp[us, tz=America/New_York] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000 File , line 1 ----> 1 pdf=sdf.toPandas() [/code] Мне просто интересно, как это исправить, или есть в любом случае, чтобы сгенерировать DataFrame Panda, непосредственно вызывая SQL в данных DataBricks?
Я считываю около 1 миллиона строк, хранящихся в S3 в виде файлов паркета, в кадр данных (данные размером 900 МБ в корзине). Фильтрация фрейма данных на основе значений и последующее преобразование в фрейм данных Pandas. Здесь задействованы две...
Контекст: я пытаюсь добавить новый столбец в DataFrame, который был изначально создан с помощью Spark Parquet -файла, а затем преобразован в DataFrame, используя Pandas API на Spark следующим образом:
import pyspark.pandas as ps
Контекст: я пытаюсь добавить новый столбец в DataFrame, который был изначально создан с помощью Spark Parquet -файла, а затем преобразован в DataFrame, используя Pandas API на Spark следующим образом:
import pyspark.pandas as ps
Контекст: я пытаюсь добавить новый столбец в DataFrame, который был изначально создан с помощью Spark Parquet -файла, а затем преобразован в DataFrame, используя Pandas API на Spark следующим образом:
import pyspark.pandas as ps