Я попробовал ряд различных подходов, но при каждом подходе я в конечном итоге создаю файлы метаданных для одного окна, в которых будут частичные данные (имена файлов паркета, записанные в определенном окне, распределены по нескольким файлам метаданных).
Ниже мой желаемый результат:
Код: Выделить всё
Metadata Filename: gs://my-bucket/path/to/my/metadata-file/metadata-20240117T12:40-20240117T12:45.txt
Metadata File Content:
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-0.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-1.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-2.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-3.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-4.parquet
gs://my-bucket/path/to/my/parquet-file/parquet-20240117T12:40-20240117T12:45-5.parquet
Что я здесь делаю не так?
Вот мой код, который выполняет запись паркета: https://gist.github.com/iamadhee/c1a3c9 ... e5a006d0e5
Подробнее здесь: https://stackoverflow.com/questions/793 ... a-metadata