Я сталкиваюсь с проблемой при загрузке файла CSV из S3, обработке его и читая его в DataFrame Pandas. Вот ситуация: < /p>
Я загружаю файл из ковша S3 в качестве байтового потока, сохраняя его
локально, а затем читая его с Pandas. < /li>
Правильно загружается и сохраняет файл (насколько я могу судить): < /li>
Размер файла соответствует тому, что сообщается в S3. Файл сохраняется локально без ошибок. br /> Что я пробовал: < /strong> < /p>
вручную загружать и читать Файл: он работает отлично, когда я вручную загружаю файл с S3 с помощью консоли AWS и загружаю его в панды. У него даже было более миллиона рядов. Обычно он обнаруживает UTF-8, ASCII или аналогичное кодирование для байтового потока. Я также пытался вручную установить кодирование, но это тоже не сработало. В байтах от S3 в локальную память я подумал, что, возможно, что -то не так со строительством файла с использованием байтов, поэтому в качестве механизма резерва я добавил чек, который загрузил бы весь файл из S3, если подсчет строки для файла равно 0 (с подходом байта), но это было безрезультатно. Содержание файла они появляются как двоичные нули (\ x00), что кажется неправильным. ПРИМЕЧАНИЕ. При загрузке вручную и открыты с использованием Pandas. p>
Загруженный вручную файл отлично работает с пандами, поэтому файл в S3 не поврежден. < /li>
Моя текущая реализация включает Загрузка файла в кусках, реконструируя его из потока, а затем сохраняя его локально. в Pandas.
Я сталкиваюсь с проблемой при загрузке файла CSV из S3, обработке его и читая его в DataFrame Pandas. Вот ситуация: < /p> [list] [*] Я загружаю файл из ковша S3 в качестве байтового потока, сохраняя его локально, а затем читая его с Pandas. < /li> Правильно загружается и сохраняет файл (насколько я могу судить): < /li> Размер файла соответствует тому, что сообщается в S3. Файл сохраняется локально без ошибок. br /> Что я пробовал: < /strong> < /p>
вручную загружать и читать Файл: он работает отлично, когда я вручную загружаю файл с S3 с помощью консоли AWS и загружаю его в панды. У него даже было более миллиона рядов. Обычно он обнаруживает UTF-8, ASCII или аналогичное кодирование для байтового потока. Я также пытался вручную установить кодирование, но это тоже не сработало. В байтах от S3 в локальную память я подумал, что, возможно, что -то не так со строительством файла с использованием байтов, поэтому в качестве механизма резерва я добавил чек, который загрузил бы весь файл из S3, если подсчет строки для файла равно 0 (с подходом байта), но это было безрезультатно. Содержание файла они появляются как двоичные нули (\ x00), что кажется неправильным. ПРИМЕЧАНИЕ. При загрузке вручную и открыты с использованием Pandas. p>
Загруженный вручную файл отлично работает с пандами, поэтому файл в S3 не поврежден. < /li> Моя текущая реализация включает Загрузка файла в кусках, реконструируя его из потока, а затем сохраняя его локально. в Pandas. [/list] Абсолютно будет оценено.