Как прочитать файл Parquet в Pandas DataFrame? ⇐ Python
Как прочитать файл Parquet в Pandas DataFrame?
Как прочитать набор данных Parquet небольшого размера в фрейм данных Pandas в памяти без настройки инфраструктуры кластерных вычислений, такой как Hadoop или Spark? Это лишь умеренный объем данных, который я хотел бы прочитать в памяти с помощью простого скрипта Python на ноутбуке. Данные не хранятся в HDFS. Он находится либо в локальной файловой системе, либо, возможно, в S3. Я не хочу запускать и настраивать другие службы, такие как Hadoop, Hive или Spark.
Я думал, что Blaze/Odo сделал бы это возможным: в документации Odo упоминается Parquet, но похоже, что все примеры выполняются через внешнюю среду выполнения Hive.
Как прочитать набор данных Parquet небольшого размера в фрейм данных Pandas в памяти без настройки инфраструктуры кластерных вычислений, такой как Hadoop или Spark? Это лишь умеренный объем данных, который я хотел бы прочитать в памяти с помощью простого скрипта Python на ноутбуке. Данные не хранятся в HDFS. Он находится либо в локальной файловой системе, либо, возможно, в S3. Я не хочу запускать и настраивать другие службы, такие как Hadoop, Hive или Spark.
Я думал, что Blaze/Odo сделал бы это возможным: в документации Odo упоминается Parquet, но похоже, что все примеры выполняются через внешнюю среду выполнения Hive.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)
Anonymous » » в форуме Python - 0 Ответы
- 4 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Проблема с производительностью при записи Polars.DataFrame в файл .parquet
Anonymous » » в форуме Python - 0 Ответы
- 18 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Запись нулевых значений в файл паркета с помощью Parquet.Net создает нечитаемый файл паркета.
Anonymous » » в форуме C# - 0 Ответы
- 67 Просмотры
-
Последнее сообщение Anonymous
-