Я не хочу использовать Spark, поскольку я хочу использовать модель в SkLearn, поэтому мне нужно решение в самом Pandas.
Мой код:
Код: Выделить всё
allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",") for f in allFiles))
df.reset_index(drop=True, inplace=True)
Я хочу чтобы прочитать его частями, но я получаю ошибку, если попробую вот так:
Код: Выделить всё
allFiles = glob.glob(os.path.join(path, "*.csv"))
df = pd.concat((pd.read_csv(f,sep=",",chunksize=10000) for f in allFiles))
df.reset_index(drop=True, inplace=True)
"невозможно объединить объект типа ""; допустимы только объекты pd.Series, pd.DataFrame и pd.Panel (устаревшие)"
Может кто-нибудь помочь?
Подробнее здесь: https://stackoverflow.com/questions/549 ... -in-chunks
Мобильная версия