Проблема с памятью при сериализации заархивированных файлов в Pyspark на Databricks

Проблема с памятью при сериализации заархивированных файлов в Pyspark на Databricks ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблема с памятью при сериализации заархивированных файлов в Pyspark на Databricks

Цитата

Сообщение Anonymous » 05 дек 2024, 17:04

Я хочу разархивировать несколько файлов в формате 7z в pyspark на Databricks.
Zip-файлы содержат несколько тысяч очень маленьких файлов.
Я читаю файлы в двоичном формате. File и я используем UDF для разархивирования файлов:

Код: Выделить всё

schema = ArrayType(StringType())

@F.udf(returnType=schema)
def unzip_content_udf(content):
extracted_files = []

with py7zr.SevenZipFile(io.BytesIO(content), mode='r') as z:
for name, bytes_stream in z.readall().items():
if name.startswith("v1") or name.startswith("v2"):
unzipped_content = bytes_stream.read().decode(ENCODING)
extracted_files.append(unzipped_content)
return extracted_files

df = spark.read.format("binaryFile").load("/mnt/file_pattern*")
df = df.withColumn("unzipped_files", unzip_content_udf(F.col("content")))
df.write.mode("overwrite").parquet("/mnt/test_dump_unzipped")

Это хорошо работает для файлов меньшего размера, но если я укажу один из файлов большего размера (150 МБ в архиве, 4,5 ГБ в разархивированном виде), процесс завершится, и я получу

Код: Выделить всё

Py4JJavaError: An error occurred while calling o1665.parquet.
ValueError: can not serialize object larger than 2G

Думаю, это имеет смысл, поскольку предел сериализации меньше размера разархивированного файла.
Есть ли у вас какие-либо идеи, как увеличить предел или как разделить размер операции разархивирования ниже ограничения?

Подробнее здесь: https://stackoverflow.com/questions/792 ... databricks

1733407446

Anonymous

Я хочу разархивировать несколько файлов в формате 7z в pyspark на Databricks.
Zip-файлы содержат несколько тысяч очень маленьких файлов.
Я читаю файлы в двоичном формате. File и я используем UDF для разархивирования файлов:
[code]schema = ArrayType(StringType())

@F.udf(returnType=schema)
def unzip_content_udf(content):
extracted_files = []

with py7zr.SevenZipFile(io.BytesIO(content), mode='r') as z:
for name, bytes_stream in z.readall().items():
if name.startswith("v1") or name.startswith("v2"):
unzipped_content = bytes_stream.read().decode(ENCODING)
extracted_files.append(unzipped_content)
return extracted_files

df = spark.read.format("binaryFile").load("/mnt/file_pattern*")
df = df.withColumn("unzipped_files", unzip_content_udf(F.col("content")))
df.write.mode("overwrite").parquet("/mnt/test_dump_unzipped")
[/code]
Это хорошо работает для файлов меньшего размера, но если я укажу один из файлов большего размера (150 МБ в архиве, 4,5 ГБ в разархивированном виде), процесс завершится, и я получу
[code]Py4JJavaError: An error occurred while calling o1665.parquet.
ValueError: can not serialize object larger than 2G
[/code]
Думаю, это имеет смысл, поскольку предел сериализации меньше размера разархивированного файла.
Есть ли у вас какие-либо идеи, как увеличить предел или как разделить размер операции разархивирования ниже ограничения? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79255009/memory-problem-when-serializing-zipped-files-in-pyspark-on-databricks[/url]