Чтение файлов секционированного паркета в DuckDB

Чтение файлов секционированного паркета в DuckDB ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Чтение файлов секционированного паркета в DuckDB

Цитата

Сообщение Anonymous » 14 фев 2026, 14:49

Справочная информация:

DuckDB позволяет выполнять прямые запросы к файлам паркета. например con.execute("Выберите * из 'Hierarchy.parquet')
Parquet позволяет разделять файлы по значениям столбцов. Когда файл паркета разбит на разделы, создается ПАПКА верхнего уровня с именем файла паркета и подпапками для значений столбцов, и эти подпапки затем содержат фактические файлы данных паркета. Например,
Hierarchy.parquet (папка) --> date=20220401 (подпапка) --> part1.parquet

Ожидаемое поведение
DuckDB для запроса разделенных И неразделенных файлов паркета.
Наблюдаемое поведение
DuckDB не работает при запросе разделенных файлов паркета и работает с неразделенными файлами паркета.

Код: Выделить всё

con.execute("Select * from 'Hierarchy.parquet'")

не работает с

Код: Выделить всё

RuntimeError: IO Error: No files found that match the pattern "Hierarchy.parquet"

, когда Hierarchy.parquet разделен.
запрос базовых файлов данных отдельных лиц работает нормально:

Код: Выделить всё

con.execute("Select * from 'Hierarchy.parquet/date=20220401/part1.parquet'")

Есть ли способ запросить файлы секционированного паркета с помощью DuckDB? Или это ограничение/баг?

Подробнее здесь: https://stackoverflow.com/questions/719 ... -in-duckdb

1771069798

Anonymous

[b]Справочная информация[/b]:
[list]
[*]DuckDB позволяет выполнять прямые запросы к файлам паркета. например con.execute("Выберите * из 'Hierarchy.parquet')

[*]Parquet позволяет разделять файлы по значениям столбцов. Когда файл паркета разбит на разделы, создается ПАПКА верхнего уровня с именем файла паркета и подпапками для значений столбцов, и эти подпапки затем содержат фактические файлы данных паркета. Например,
Hierarchy.parquet (папка) --> date=20220401 (подпапка) --> part1.parquet

[/list]
[b]Ожидаемое поведение[/b]
DuckDB для запроса разделенных И неразделенных файлов паркета.
[b]Наблюдаемое поведение[/b]
DuckDB не работает при запросе разделенных файлов паркета и работает с неразделенными файлами паркета.
[code]con.execute("Select * from 'Hierarchy.parquet'")[/code] не работает с
[code]RuntimeError: IO Error: No files found that match the pattern "Hierarchy.parquet"[/code], когда Hierarchy.parquet разделен.
запрос базовых файлов данных отдельных лиц работает нормально:
[code]con.execute("Select * from 'Hierarchy.parquet/date=20220401/part1.parquet'")[/code]
Есть ли способ запросить файлы секционированного паркета с помощью DuckDB? Или это ограничение/баг? 

Подробнее здесь: [url]https://stackoverflow.com/questions/71952623/reading-partitioned-parquet-files-in-duckdb[/url]