Фильтрация набора данных PyArrow не работает с файлами секционированного паркета

Фильтрация набора данных PyArrow не работает с файлами секционированного паркета ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Фильтрация набора данных PyArrow не работает с файлами секционированного паркета

Цитата

Сообщение Anonymous » 22 окт 2024, 16:58

Я сохраняю фрейм данных pandas следующим образом:

Код: Выделить всё

import pyarrow as pa
import pyarrow.parquet as pq
table = pa.Table.from_pandas(my_df)
pq.write_to_dataset(table, root_path="data/bfl", partition_cols=['pnr_group'])

Я могу найти его в такой разделенной структуре каталогов:

Код: Выделить всё

data/bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet

Когда я читаю отдельный файл паркета напрямую с помощью pq.read_table(), я вижу данные. Однако при попытке прочитать его с помощью API набора данных PyArrow с фильтрацией я получаю пустые результаты:

Код: Выделить всё

import pyarrow.dataset as ds
import pyarrow as pa

# This works - has data
import pyarrow.parquet as pq
file_path = 'data/bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet'
table = pq.read_table(file_path)
print(len(table))  # Shows rows

# This finds the correct files but returns empty data
dataset = ds.dataset(
'data/bfl',
format='parquet',
partitioning=ds.DirectoryPartitioning.discover(['pnr_group'])
)

filter_expr = ds.field('pnr_group') == '0'
filtered_dataset = dataset.filter(filter_expr)
df = filtered_dataset.to_table().to_pandas()  # Returns empty dataframe

Схема набора данных показывает «pnr_group» как строковый тип, а dataset.files правильно перечисляет все файлы паркета. Однако после фильтрации и преобразования в pandas результирующий фрейм данных оказывается пустым.
Как правильно читать и фильтровать файлы секционированного паркета с помощью API набора данных PyArrow?

Подробнее здесь: https://stackoverflow.com/questions/791 ... quet-files

1729605538

Anonymous

Я сохраняю фрейм данных pandas следующим образом:
[code]import pyarrow as pa
import pyarrow.parquet as pq
table = pa.Table.from_pandas(my_df)
pq.write_to_dataset(table, root_path="data/bfl", partition_cols=['pnr_group'])
[/code]
Я могу найти его в такой разделенной структуре каталогов:
[code]data/bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet
[/code]
Когда я читаю отдельный файл паркета напрямую с помощью pq.read_table(), я вижу данные. Однако при попытке прочитать его с помощью API набора данных PyArrow с фильтрацией я получаю пустые результаты:
[code]import pyarrow.dataset as ds
import pyarrow as pa

# This works - has data
import pyarrow.parquet as pq
file_path = 'data/bfl/pnr_group=0/319a1fb5557a342c1b55356ce5123123-0.parquet'
table = pq.read_table(file_path)
print(len(table))  # Shows rows

# This finds the correct files but returns empty data
dataset = ds.dataset(
'data/bfl',
format='parquet',
partitioning=ds.DirectoryPartitioning.discover(['pnr_group'])
)

filter_expr = ds.field('pnr_group') == '0'
filtered_dataset = dataset.filter(filter_expr)
df = filtered_dataset.to_table().to_pandas()  # Returns empty dataframe
[/code]
Схема набора данных показывает «pnr_group» как строковый тип, а dataset.files правильно перечисляет все файлы паркета. Однако после фильтрации и преобразования в pandas результирующий фрейм данных оказывается пустым.
Как правильно читать и фильтровать файлы секционированного паркета с помощью API набора данных PyArrow? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79114216/pyarrow-dataset-filtering-not-working-with-partitioned-parquet-files[/url]