Чтение разделенных файлов многосхемного паркета из S3 с использованием PolarsPython

Программы на Python
Anonymous
 Чтение разделенных файлов многосхемного паркета из S3 с использованием Polars

Сообщение Anonymous »

Имея более 1000 файлов s3 в секционированном пути, вы хотите прочитать все файлы. используя Polars, потому что он быстрее по сравнению с Pandas


s3://bucket_name/rs_tables/name='part1'/key='abc'/date=''/part1_0000.parquet

Сканирование этих файлов с помощью Polars

Код: Выделить всё

    source = "s3://bucket_name/rs_tables/*/*/*/*.parquet"
storage_options = {
"aws_access_key_id": access_key,
"aws_secret_access_key": secret_key,
"aws_session_token": token
}

lazyFrame = pl.scan_parquet(source, storage_options=storage_options)
lazyFrame.collect()
Поскольку эти файлы имеют разную схему, код выдает ошибку вычисления.

ComputeError: схема всех файлов в одном scan_parquet должна быть одинаковой.

Есть ли какой-либо вариант mergeSchema, как в Spark? Пожалуйста, предложите варианты решения этой проблемы

Подробнее здесь: https://stackoverflow.com/questions/778 ... ing-polars

Вернуться в «Python»