Как прочитать файл Parquet в Pandas DataFrame? - Цифровое Кемерово

Как прочитать файл Parquet в Pandas DataFrame? ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как прочитать файл Parquet в Pandas DataFrame?

Сообщение Anonymous » 29 фев 2024, 19:50

Как прочитать набор данных Parquet небольшого размера в фрейм данных Pandas в памяти без настройки инфраструктуры кластерных вычислений, такой как Hadoop или Spark? Это лишь умеренный объем данных, который я хотел бы прочитать в памяти с помощью простого скрипта Python на ноутбуке. Данные не хранятся в HDFS. Он находится либо в локальной файловой системе, либо, возможно, в S3. Я не хочу запускать и настраивать другие службы, такие как Hadoop, Hive или Spark.

Я думал, что Blaze/Odo сделал бы это возможным: в документации Odo упоминается Parquet, но похоже, что все примеры выполняются через внешнюю среду выполнения Hive.

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»