Загрузите несколько больших файлов CSV в паркет при создании нового столбца для имени файла.

Загрузите несколько больших файлов CSV в паркет при создании нового столбца для имени файла. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Загрузите несколько больших файлов CSV в паркет при создании нового столбца для имени файла.

Цитата

Сообщение Anonymous » 24 июл 2024, 17:58

У меня есть коллекции CSV-файлов, до 1000, каждый из которых имеет несжатый размер ~1 ГБ. Я хочу создать из них единый набор данных паркета.
При этом я хочу записать, из какого файла взят каждый набор строк.
Я хочу сделать все это менее чем с 10 ГБ оперативной памяти на Python.
Очевидно, что начать нужно с Dask.
Если я сделайте что-нибудь вроде:

Код: Выделить всё

for infile in file_list:
ddf = dd.read_csv(infile)
ddf = ddf.assign(filename=infile)
ddf.to_parquet("output_parquet_path",
append=True,
write_index=False,
write_metadata_file=True,
compute=True)

Затем я получаю сообщение об ошибке о типах столбцов, начиная со второго файла - кажется, что текстовые столбцы имеют тип string[pyarrow] в файле паркета, но объект в кадре данных Dask (см. ValueError: добавленные типы данных различаются при добавлении двух простых таблиц с помощью dask).
Если я попытаюсь полагаться на ленивый характер Dask и сделать :

Код: Выделить всё

frame_list = list()
for infile in file_list:
ddf = dd.read_csv(infile)
ddf = ddf.assign(filename=infile)
frame_list.append(ddf)

full_frame = ddf.concat(frame_list)
full_frame.to_parquet("output_parquet_path",
write_index=False,
write_metadata_file=True,
compute=True)

Затем вычисление запускается раньше и пытается загрузить все кадры в память одновременно.

Подробнее здесь: https://stackoverflow.com/questions/787 ... r-file-nam

1721833134

Anonymous

У меня есть коллекции CSV-файлов, до 1000, каждый из которых имеет несжатый размер ~1 ГБ. Я хочу создать из них единый набор данных паркета.
При этом я хочу записать, из какого файла взят каждый набор строк.
Я хочу сделать все это менее чем с 10 ГБ оперативной памяти на Python.
Очевидно, что начать нужно с Dask.
Если я сделайте что-нибудь вроде:
[code]for infile in file_list:
ddf = dd.read_csv(infile)
ddf = ddf.assign(filename=infile)
ddf.to_parquet("output_parquet_path",
append=True,
write_index=False,
write_metadata_file=True,
compute=True)
[/code]
Затем я получаю сообщение об ошибке о типах столбцов, начиная со второго файла - кажется, что текстовые столбцы имеют тип string[pyarrow] в файле паркета, но объект в кадре данных Dask (см. ValueError: добавленные типы данных различаются при добавлении двух простых таблиц с помощью dask).
Если я попытаюсь полагаться на ленивый характер Dask и сделать :
[code]frame_list = list()
for infile in file_list:
ddf = dd.read_csv(infile)
ddf = ddf.assign(filename=infile)
frame_list.append(ddf)

full_frame = ddf.concat(frame_list)
full_frame.to_parquet("output_parquet_path",
write_index=False,
write_metadata_file=True,
compute=True)
[/code]
Затем вычисление запускается раньше и пытается загрузить все кадры в память одновременно. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78789122/load-multiple-large-csv-files-into-parquet-while-creating-new-colum-for-file-nam[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

EPPlus - «Тип столбца таблицы Table1 не имеет уникального имени» при создании файла xlsx из файла csv

Последнее сообщение Anonymous « 04 июл 2024, 11:57
Добавлено в форуме C#

Anonymous » 04 июл 2024, 11:57 » в форуме C#

При вызове package.Save() я получаю следующую ошибку:

Тип столбца таблицы Table1 не имеет уникальное имя

Я дал таблице имя, убедился, что все пустые ячейки имеют пустой тип по умолчанию, но все еще не могу найти, где это идет не так или как я...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 11:57
Добавление столбца в несколько файлов .csv с именем файла, когда вы объединяете эти файлы .csv в один рам

Последнее сообщение Anonymous « 10 фев 2025, 09:54
Добавлено в форуме Python

Anonymous » 10 фев 2025, 09:54 » в форуме Python

У меня есть 50 файлов .csv с более чем 188K строками, которые мне нужно было бы добавить имя файла, чтобы я мог отслеживать, из какого файла он пришел. Я включил код, который я использую ниже, который способен объединить файлы в один df.
df =...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
10 фев 2025, 09:54
Как оптимизировать использование ЦП и памяти при создании больших файлов CSV с помощью Node.js и Sequelize?

Последнее сообщение Anonymous « 01 мар 2024, 13:18
Добавлено в форуме Php

Anonymous » 01 мар 2024, 13:18 » в форуме Php

Я разрабатываю приложение Node.js, которое генерирует отчеты CSV на основе данных, полученных с помощью Sequelize из базы данных PostgreSQL. Хотя решение хорошо работает для небольших наборов данных, загрузка ЦП возрастает до 100 %, а потребление...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
01 мар 2024, 13:18
Spark написать паркет, не записывая никаких файлов, только _success

Последнее сообщение Anonymous « 10 мар 2025, 13:41
Добавлено в форуме Python

Anonymous » 10 мар 2025, 13:41 » в форуме Python

Приложение включает в себя

val stats = sqlContext.sql( select id, n from myTable )

stats.write.parquet( myTable.parquet )

Это создает dir mytable.parquet без содержимого, кроме пустого _success , даже этот

stats.show // illustration only...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 13:41
Установите значение столбца B на основе значения в имени столбца, которое соответствует значению столбца A

Последнее сообщение Anonymous « 06 авг 2024, 06:10
Добавлено в форуме Python

Anonymous » 06 авг 2024, 06:10 » в форуме Python

У меня есть пример фрейма данных:
columns =
raw_data = [
,
,
,
]
df = pd.DataFrame(raw_data, columns=columns)

Я хочу установить значение столбца B на основе значения в имени столбца, которое соответствует значению столбца A + строке «_Input»....

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
06 авг 2024, 06:10

Вернуться в «Python»