Сканирование на самом деле работает нормально, но когда я пытаюсь получить или собрать df, я получаю сообщение «ShapeError: невозможно добавить к кадру данных шириной 63 с кадром данных шириной 67».
Это означает, что есть несколько файлов CSV. содержащий больше столбцов, чем другие. Я проверил, что существует 4 уникальных набора имен столбцов. Некоторые файлы CSV содержат дополнительную информацию по сравнению с другими.
Идеальным результатом был бы фрейм данных, содержащий все возможные столбцы, и если есть файлы, которые не содержат этих конкретных «дополнительных» столбцов, они останутся пустыми.
Текущий код:
Код: Выделить всё
df = pl.scan_csv(r"path\*.csv", sep=";", infer_schema_length=0)
df.collect(streaming=True).write_parquet("new_file.parquet")
Подробнее здесь: https://stackoverflow.com/questions/757 ... -csv-files