Исправьте строки файла CSV с большим количеством столбцов, чем другие, в Python ⇐ Python
Исправьте строки файла CSV с большим количеством столбцов, чем другие, в Python
Мне нужно загрузить файл Excel в Teradata. Поэтому я взял вкладку, которую мне нужно было загрузить, и сохранил ее как файл csv. (Мне посоветовали использовать Teradata BTEQ после нескольких неудачных попыток использовать FastLoad через графический интерфейс Teradata Studio.)
Проблемы:
[*]В некоторых строках больше столбцов, чем в других. [*]При использовании BTEQ некоторые символы интерпретировались неправильно. [*]Я могу распечатать некоторые значения, но в конечном итоге получаю ошибку
UnicodeDecodeError: кодек 'charmap' не может декодировать байт... в позиции...: символы отображаются в , и я не знаю, что с этим делать.
Мне посоветовали использовать Python для подсчета запятых/разделителей в каждой строке, чтобы найти те, в которых слишком много столбцов, и исправить их, но в каждой строке 125 000 строк и 66 столбцов. (Это очень грязные данные, которые были введены вручную без особого использования параметров проверки данных Excel.)
Лучше всего было бы распечатать только номера строк (а не номера строк), которые необходимо исправить, и исправить их на месте с помощью условного оператора.
Теперь код, который у меня есть, напечатает путь к файлу, затем количество столбцов в каждой строке в новой строке, затем остановит обработку и вернет ошибку UnicodeDecodeError.
Код:
с open('Data.csv', 'r') как csv_file: для строки в csv_file: печать(line.count(','))
Мне нужно загрузить файл Excel в Teradata. Поэтому я взял вкладку, которую мне нужно было загрузить, и сохранил ее как файл csv. (Мне посоветовали использовать Teradata BTEQ после нескольких неудачных попыток использовать FastLoad через графический интерфейс Teradata Studio.)
Проблемы:
[*]В некоторых строках больше столбцов, чем в других. [*]При использовании BTEQ некоторые символы интерпретировались неправильно. [*]Я могу распечатать некоторые значения, но в конечном итоге получаю ошибку
UnicodeDecodeError: кодек 'charmap' не может декодировать байт... в позиции...: символы отображаются в , и я не знаю, что с этим делать.
Мне посоветовали использовать Python для подсчета запятых/разделителей в каждой строке, чтобы найти те, в которых слишком много столбцов, и исправить их, но в каждой строке 125 000 строк и 66 столбцов. (Это очень грязные данные, которые были введены вручную без особого использования параметров проверки данных Excel.)
Лучше всего было бы распечатать только номера строк (а не номера строк), которые необходимо исправить, и исправить их на месте с помощью условного оператора.
Теперь код, который у меня есть, напечатает путь к файлу, затем количество столбцов в каждой строке в новой строке, затем остановит обработку и вернет ошибку UnicodeDecodeError.
Код:
с open('Data.csv', 'r') как csv_file: для строки в csv_file: печать(line.count(','))
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Как сделать HTML-таблицу с очень большим количеством столбцов горизонтальной прокруткой
Anonymous » » в форуме CSS - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-