Запись DataFrames как разделенного объекта паркета в Polars с помощью PyArrow

Запись DataFrames как разделенного объекта паркета в Polars с помощью PyArrow ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Запись DataFrames как разделенного объекта паркета в Polars с помощью PyArrow

Цитата

Сообщение Гость » 23 сен 2023, 14:00

У меня есть 12 файлов паркета в каталоге с соответствующими столбцами, которые я пытаюсь записать в секционированный объект с помощью Polars и PyArrow. Я перебираю каждый файл в каталоге и читаю его как LazyFrame. Затем я перебираю список DataFrames и записываю их в секционированный объект. Предполагаемый размер каждого DataFrame составляет ~ 1 ГБ, а все объединенные DataFrame ~ 10 ГБ. Процесс использует около 15 ГБ ОЗУ и занимает менее часа.

Я пытался сделать это с помощью следующего кода:

all_lazyframes: list[pl.LazyFrame] = [] для файла в glob.glob(input_path): lazyframe: pl.LazyFrame = pl.scan_parquet(файл) all_lazyframes.append(ленивый кадр) кадры данных: список[pl.DataFrame] = pl.collect_all(all_lazyframes) для вывода в кадрах данных: вывод.write_parquet( выходной_путь, use_pyarrow = Правда, pyarrow_options={"partition_cols": ["part"]}, ) Полученный секционированный объект имеет следующую структуру:

partitioned_object/ часть = а/ data0.parquet data1.parquet ... часть=b/ data0.parquet data1.parquet ... Размер этого объекта составляет ~250 ГБ. Мой вопрос: почему разделенный объект такой большой, если общий размер входных данных составляет всего ~ 10 ГБ? Есть ли более эффективный способ добиться этого?

1695466809

Гость


У меня есть 12 файлов паркета в каталоге с соответствующими столбцами, которые я пытаюсь записать в секционированный объект с помощью Polars и PyArrow. Я перебираю каждый файл в каталоге и читаю его как LazyFrame. Затем я перебираю список DataFrames и записываю их в секционированный объект. Предполагаемый размер каждого DataFrame составляет ~ 1 ГБ, а все объединенные DataFrame ~ 10 ГБ. Процесс использует около 15 ГБ ОЗУ и занимает менее часа.
 
Я пытался сделать это с помощью следующего кода:
 
all_lazyframes: list[pl.LazyFrame] = [] для файла в glob.glob(input_path):     lazyframe: pl.LazyFrame = pl.scan_parquet(файл)     all_lazyframes.append(ленивый кадр) кадры данных: список[pl.DataFrame] = pl.collect_all(all_lazyframes) для вывода в кадрах данных:     вывод.write_parquet(         выходной_путь,         use_pyarrow = Правда,         pyarrow_options={"partition_cols": ["part"]},     )  Полученный секционированный объект имеет следующую структуру:
 
partitioned_object/   часть = а/        data0.parquet        data1.parquet        ...   часть=b/        data0.parquet        data1.parquet     ...  Размер этого объекта составляет ~250 ГБ. Мой вопрос: почему разделенный объект такой большой, если общий размер входных данных составляет всего ~ 10 ГБ? Есть ли более эффективный способ добиться этого?

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Запись нулевых значений в файл паркета с помощью Parquet.Net создает нечитаемый файл паркета.

Последнее сообщение Anonymous « 26 апр 2024, 18:06
Добавлено в форуме C#

Anonymous » 26 апр 2024, 18:06 » в форуме C#

Я использую Parquet.Net (4.23.5) для записи файла паркета. Я обнаружил, что когда я хочу записать нулевое значение в столбце данных, сгенерированный файл паркета становится нечитаемым.
Итак, что я делаю неправильно
Это это простой код для его...

0 Ответы

69 Просмотры

Последнее сообщение Anonymous
26 апр 2024, 18:06
Запись нулевых значений в файл паркета с помощью Parquet.Net создает нечитаемый файл паркета.

Последнее сообщение Anonymous « 09 янв 2025, 05:13
Добавлено в форуме C#

Anonymous » 09 янв 2025, 05:13 » в форуме C#

Я использую Parquet.Net (4.23.5) для записи файла паркета. Я обнаружил, что когда я хочу записать нулевое значение в столбце данных, сгенерированный файл паркета становится нечитаемым.
Итак, что я делаю неправильно
Это это простой код для его...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
09 янв 2025, 05:13
Как написать метаданные паркета с помощью Pyarrow?

Последнее сообщение Anonymous « 22 ноя 2024, 12:14
Добавлено в форуме Python

Anonymous » 22 ноя 2024, 12:14 » в форуме Python

Я использую pyarrow для создания и анализа таблиц Parquet с биологической информацией, и мне нужно хранить некоторые метаданные, например. из какой выборки взяты данные, как они были получены и обработаны.

Похоже, что Parquet поддерживает...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
22 ноя 2024, 12:14
ОШИБКА: Не удалось построить колесо для pyarrow (Не удалось построить pyarrow)

Последнее сообщение Anonymous « 14 окт 2024, 18:20
Добавлено в форуме Python

Anonymous » 14 окт 2024, 18:20 » в форуме Python

Я устанавливаю pyarrow на Python 3.13:
pip install pyarrow

вот что я получаю:
C:\Users\dev\AppData\Local\Programs\Python\Python313>py -3.13 -m pip install pyarrow
Collecting pyarrow
Downloading pyarrow-17.0.0.tar.gz (1.1 MB)...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
14 окт 2024, 18:20
Возникает ошибка при установке pyarrow: Не удалось собрать pyarrow.

Последнее сообщение Anonymous « 22 окт 2024, 17:06
Добавлено в форуме Python

Anonymous » 22 окт 2024, 17:06 » в форуме Python

Я использовал приведенные ниже команды для установки pip
Pip install pyarrow
pip install pyarrow==10.0.1

но каждый раз получаю похожую ошибку
CMake Error at CMakeLists.txt:53 (project):
Generator

Visual Studio 15 2017 Win64

could not find any...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
22 окт 2024, 17:06

Вернуться в «Python»