Чтение разделенных файлов многосхемного паркета из S3 с использованием Polars

Чтение разделенных файлов многосхемного паркета из S3 с использованием Polars ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Чтение разделенных файлов многосхемного паркета из S3 с использованием Polars

Сообщение Anonymous » 25 окт 2025, 13:13

Имея более 1000 файлов s3 в секционированном пути, вы хотите прочитать все файлы. используя Polars, потому что он быстрее по сравнению с Pandas

s3://bucket_name/rs_tables/name='part1'/key='abc'/date=''/part1_0000.parquet

Сканирование этих файлов с помощью Polars

Код: Выделить всё

    source = "s3://bucket_name/rs_tables/*/*/*/*.parquet"
storage_options = {
"aws_access_key_id": access_key,
"aws_secret_access_key": secret_key,
"aws_session_token": token
}

lazyFrame = pl.scan_parquet(source, storage_options=storage_options)
lazyFrame.collect()

Поскольку эти файлы имеют разную схему, код выдает ошибку вычисления.

ComputeError: схема всех файлов в одном scan_parquet должна быть одинаковой.

Есть ли какой-либо вариант mergeSchema, как в Spark? Пожалуйста, предложите варианты решения этой проблемы

Подробнее здесь: https://stackoverflow.com/questions/778 ... ing-polars

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»