Чтение нескольких файлов CSV в Pandas по частям

Чтение нескольких файлов CSV в Pandas по частям ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Чтение нескольких файлов CSV в Pandas по частям

Цитата

Сообщение Anonymous » 09 окт 2024, 11:37

Как импортировать и читать несколько файлов CSV по частям, если у нас есть несколько файлов CSV, а общий размер всех CSV составляет около 20 ГБ?

Я не хочу использовать Spark, поскольку я хочу использовать модель в SkLearn, поэтому мне нужно решение в самом Pandas.

Мой код:

Код: Выделить всё

allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",") for f in allFiles))
df.reset_index(drop=True, inplace=True)

Но это не удается, поскольку общий размер всех CSV-файлов на моем пути составляет 17 ГБ.

Я хочу чтобы прочитать его частями, но я получаю ошибку, если попробую вот так:

Код: Выделить всё

  allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",",chunksize=10000) for f in allFiles))
df.reset_index(drop=True, inplace=True)

Я получаю следующую ошибку:

"невозможно объединить объект типа ""; допустимы только объекты pd.Series, pd.DataFrame и pd.Panel (устаревшие)"

Может кто-нибудь помочь?

Подробнее здесь: https://stackoverflow.com/questions/549 ... -in-chunks

1728463075

Anonymous

Как импортировать и читать несколько файлов CSV по частям, если у нас есть несколько файлов CSV, а общий размер всех CSV составляет около 20 ГБ?

Я не хочу использовать Spark, поскольку я хочу использовать модель в SkLearn, поэтому мне нужно решение в самом Pandas.

Мой код:

[code]allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",") for f in allFiles))
df.reset_index(drop=True, inplace=True)
[/code]

Но это не удается, поскольку общий размер всех CSV-файлов на моем пути составляет 17 ГБ.

Я хочу чтобы прочитать его частями, но я получаю ошибку, если попробую вот так:

[code]  allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",",chunksize=10000) for f in allFiles))
df.reset_index(drop=True, inplace=True)
[/code]

Я получаю следующую ошибку:


"невозможно объединить объект типа ""; допустимы только объекты pd.Series, pd.DataFrame и pd.Panel (устаревшие)"


Может кто-нибудь помочь?  

Подробнее здесь: [url]https://stackoverflow.com/questions/54987682/read-multiple-csv-files-in-pandas-in-chunks[/url]