Чтение больших файлов CSV и сохранение в паркет.Python

Программы на Python
Ответить
Anonymous
 Чтение больших файлов CSV и сохранение в паркет.

Сообщение Anonymous »

Я хочу проанализировать CSV-файл размером 125 ГБ. У меня есть 500 ГБ оперативной памяти. Когда я пытаюсь выполнить read_csv, я получаю ComputeError. Вместо этого я попробовал scan_csv и мойку_parquet (чтобы уменьшить размер файла) и получил следующее сообщение об ошибке:

polars.exceptions.ComputeError could not parse ~.

Не уверен, что я могу здесь сделать?
Traceback (most recent call last):
File "Path\Python\Scripts\Process.py", line 55, in process_daily_status
).sink_parquet(path = parquet_file)
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "Path\Python\env\Lib\site-packages\polars_utils\unstable.py", line 59, in wrapper
return function(*args, **kwargs)
^^^^^^^^^^^^^^^^^^^^^^^^^
File "Path\Python\env\Lib\site-packages\polars\lazyframe\frame.py", line 2116, in sink_parquet
return lf.sink_parquet(
^^^^^^^^^^^^^^^^
polars.exceptions.ComputeError: could not parse `

Я попробовал read_csv() и scan_csv().
Используемый код:
try:
if not os.path.exists(parquet_file) or force_update:
pl.scan_csv(source=csv_file, schema=DataTypes.daily_status_dtypes).sink_parquet(
path=parquet_file
)
except Exception as e:
print("+" * 120)
traceback.print_exception(e)
return False


Подробнее здесь: https://stackoverflow.com/questions/785 ... to-parquet
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»