Awswrangler: Паркет читается в несколько раз больше ожидаемого пространства

Awswrangler: Паркет читается в несколько раз больше ожидаемого пространства ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Awswrangler: Паркет читается в несколько раз больше ожидаемого пространства

Цитата

Сообщение Anonymous » 05 ноя 2025, 03:30

В Lambda я использую AWS Wrangler для считывания данных из набора паркетов, разделенных по датам, и объединения их вместе. Я делаю это, вызывая wr.s3.read_parquet в цикле, компилируя загруженные фреймы данных в список, а затем объединяя их с помощью pandas.concat. По сути, я просто делаю следующее.

Код: Выделить всё

# Load the data for each partition, adding date column
df_list = []

for date_str, key_set in partition_keys.items():
for parquet_key in key_set:
# Read in the parquet as chunked data.
dfs = wr.s3.read_parquet(path=f"s3://{bucket}/{parquet_key}", chunked=True)

# Set the date column for each chunk and append to list
for df in dfs:
df[date_col] = date_str
df_list.append(df)

# Concatenate into copy
concat_df = pd.concat(df_list, ignore_index=True, copy=True)

Однако Lambda продолжает выходить из строя из-за ошибки «Недостаточно памяти», несмотря на то, что размер файлов составляет всего около одного гигабайта, а Lambda предоставляет 10 ГБ памяти.
Когда я добавил в код несколько сообщений отслеживания, я обнаружил, что паркеты занимают гораздо больше места в виде DataFrame, чем в виде файлов в S3. На скриншотах ниже я вижу, что файлы занимают примерно в 60 раз больше места в памяти, чем в S3.

Кто-нибудь знает, почему это происходит? Есть ли способ решить эту проблему?
Спасибо за помощь.

Подробнее здесь: https://stackoverflow.com/questions/798 ... cted-space

1762302646

Anonymous

В Lambda я использую AWS Wrangler для считывания данных из набора паркетов, разделенных по датам, и объединения их вместе. Я делаю это, вызывая wr.s3.read_parquet в цикле, компилируя загруженные фреймы данных в список, а затем объединяя их с помощью pandas.concat. По сути, я просто делаю следующее.
[code]# Load the data for each partition, adding date column
df_list = []

for date_str, key_set in partition_keys.items():
for parquet_key in key_set:
# Read in the parquet as chunked data.
dfs = wr.s3.read_parquet(path=f"s3://{bucket}/{parquet_key}", chunked=True)

# Set the date column for each chunk and append to list
for df in dfs:
df[date_col] = date_str
df_list.append(df)

# Concatenate into copy
concat_df = pd.concat(df_list, ignore_index=True, copy=True)
[/code]
Однако Lambda продолжает выходить из строя из-за ошибки «Недостаточно памяти», несмотря на то, что размер файлов составляет всего около одного гигабайта, а Lambda предоставляет 10 ГБ памяти.
Когда я добавил в код несколько сообщений отслеживания, я обнаружил, что паркеты занимают гораздо больше места в виде DataFrame, чем в виде файлов в S3. На скриншотах ниже я вижу, что файлы занимают примерно в 60 раз больше места в памяти, чем в S3.
[img]https://i.sstatic.net/7oPfb1oe.png[/img]

[img]https://i.sstatic.net/wBNfOpY8.png[/img]

Кто-нибудь знает, почему это происходит? Есть ли способ решить эту проблему?
Спасибо за помощь. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79807535/awswrangler-parquet-read-into-multiple-of-expected-space[/url]