Чтение нескольких файлов CSV в Pandas по частямPython

Программы на Python
Ответить
Anonymous
 Чтение нескольких файлов CSV в Pandas по частям

Сообщение Anonymous »

Как импортировать и читать несколько файлов CSV по частям, если у нас есть несколько файлов CSV, а общий размер всех CSV составляет около 20 ГБ?

Я не хочу использовать Spark, поскольку я хочу использовать модель в SkLearn, поэтому мне нужно решение в самом Pandas.

Мой код:

Код: Выделить всё

allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",") for f in allFiles))
df.reset_index(drop=True, inplace=True)
Но это не удается, поскольку общий размер всех CSV-файлов на моем пути составляет 17 ГБ.

Я хочу чтобы прочитать его частями, но я получаю ошибку, если попробую вот так:

Код: Выделить всё

  allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",",chunksize=10000) for f in allFiles))
df.reset_index(drop=True, inplace=True)
Я получаю следующую ошибку:


"невозможно объединить объект типа ""; допустимы только объекты pd.Series, pd.DataFrame и pd.Panel (устаревшие)"


Может кто-нибудь помочь?

Подробнее здесь: https://stackoverflow.com/questions/549 ... -in-chunks
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»