Замените ошибочный байт `0x9b` строкой, чтобы его можно было легко найти с помощью ctrl+f [дубликат]

Замените ошибочный байт `0x9b` строкой, чтобы его можно было легко найти с помощью ctrl+f [дубликат] ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Замените ошибочный байт `0x9b` строкой, чтобы его можно было легко найти с помощью ctrl+f [дубликат]

Цитата

Сообщение Anonymous » 14 окт 2024, 11:10

Замена ошибочного байта некоторой строкой текста. Это код, который я использую для чтения CSV.

Код: Выделить всё

    with open(file, "r", newline="") as f:
reader = csv.reader(f)
rows = [row[0].split("\t") for row in reader if row]
return rows

При чтении файла CSV возникает следующая ошибка:

Код: Выделить всё

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 1904: character maps to

Я видел в комментарии, что если вы передадите error=ignore, вы проигнорируете все неверные строки. Я посмотрел документацию, и ошибки="replace" заменят неверные данные 0x9d вопросом?. Итак, теперь открыто это: open(file, "r", newline="", error="replace") но я получаю ту же ошибку с другим байтом.

Код: Выделить всё

UnicodeEncodeError: 'charmap' codec can't encode character '\ufffd' in position 0: character maps to

Итак, я продолжил поиск и нашел это. Итак, очевидно, что \ufffd предназначен для UTF-16, поэтому я передал кодировку="UTF-16" для открытия, и теперь это так: open(file, "r", newline="", error="replace",coding="UTF-16") и теперь новая ошибка.

Код: Выделить всё

UnicodeError: UTF-16 stream does not start with BOM

Итак, я думаю, это не кодировка UTF-16. Итак, я понял, что мне нужно получить кодировку файла. Я осмотрелся еще больше и обнаружил, что класс UnicodeDammit из Beautiful Soup позволяет вам выяснить, что такое кодировка. Итак, я установил это и сделал это.

Код: Выделить всё

with open(path, "r") as f:
uni = UnicodeDammit("\n".join(f.readlines()))
print(uni.original_encoding)

Но невозможно сказать, что проблема в 0x9d. Поэтому я обновил его до этого.

Код: Выделить всё

with open(path, "r", errors="replace") as f:
uni = UnicodeDammit("\n".join(f.readlines()))
print(uni.original_encoding)

Что дает мне бесцеремонный вывод None. На данный момент я растерян и не уверен, каковы мои следующие шаги. Но конечная цель состоит в том, чтобы заменить 0x9b чем-то вроде XXXXXXX или ?, например, что делает error="replace", чтобы его можно было легко найти. Если возможно, я бы предпочел первый с длинной строкой X, поскольку это упрощает задачу, поскольку файл csv уже содержит? как часть его данных. Спасибо за любую помощь.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -with-ctrl

1728893418

Anonymous

Замена ошибочного байта некоторой строкой текста. Это код, который я использую для чтения CSV.
[code]    with open(file, "r", newline="") as f:
reader = csv.reader(f)
rows = [row[0].split("\t") for row in reader if row]
return rows
[/code]
При чтении файла CSV возникает следующая ошибка:
[code]UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 1904: character maps to 
[/code]
Я видел в комментарии, что если вы передадите error=ignore, вы проигнорируете все неверные строки. Я посмотрел документацию, и ошибки="replace" заменят неверные данные 0x9d вопросом?. Итак, теперь открыто это: open(file, "r", newline="", error="replace") но я получаю ту же ошибку с другим байтом.[code]UnicodeEncodeError: 'charmap' codec can't encode character '\ufffd' in position 0: character maps to 
[/code]
Итак, я продолжил поиск и нашел это. Итак, очевидно, что \ufffd предназначен для UTF-16, поэтому я передал кодировку="UTF-16" для открытия, и теперь это так: open(file, "r", newline="", error="replace",coding="UTF-16") и теперь новая ошибка.
[code]UnicodeError: UTF-16 stream does not start with BOM
[/code]
Итак, я думаю, это не кодировка UTF-16. Итак, я понял, что мне нужно получить кодировку файла. Я осмотрелся еще больше и обнаружил, что класс UnicodeDammit из Beautiful Soup позволяет вам выяснить, что такое кодировка. Итак, я установил это и сделал это.
[code]with open(path, "r") as f:
uni = UnicodeDammit("\n".join(f.readlines()))
print(uni.original_encoding)
[/code]
Но невозможно сказать, что проблема в 0x9d. Поэтому я обновил его до этого.
[code]with open(path, "r", errors="replace") as f:
uni = UnicodeDammit("\n".join(f.readlines()))
print(uni.original_encoding)
[/code]
Что дает мне бесцеремонный вывод None. На данный момент я растерян и не уверен, каковы мои следующие шаги. Но конечная цель состоит в том, чтобы заменить 0x9b чем-то вроде XXXXXXX или ?, например, что делает error="replace", чтобы его можно было легко найти. Если возможно, я бы предпочел первый с длинной строкой X, поскольку это упрощает задачу, поскольку файл csv уже содержит? как часть его данных. Спасибо за любую помощь. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79084824/replace-erroneous-byte-0x9b-with-a-string-so-it-can-be-easily-found-with-ctrl[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как обнаружить ошибочный класс DataContract?

Последнее сообщение Anonymous « 17 ноя 2024, 00:11
Добавлено в форуме C#

Anonymous » 17 ноя 2024, 00:11 » в форуме C#

Можно ли обнаружить следующую ситуацию (с предупреждением компилятора или с помощью внешнего инструмента):
public class SomeItem
{
public string ValueOne { get; set; }
public string ValueTwo { get; set; }
}

public class Response
{

public List...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
17 ноя 2024, 00:11
Как обнаружить ошибочный класс DataContract?

Последнее сообщение Anonymous « 17 ноя 2024, 02:25
Добавлено в форуме C#

Anonymous » 17 ноя 2024, 02:25 » в форуме C#

Можно ли обнаружить следующую ситуацию (с предупреждением компилятора или с помощью внешнего инструмента):
public class SomeItem
{
public string ValueOne { get; set; }
public string ValueTwo { get; set; }
}

public class Response
{

public List...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
17 ноя 2024, 02:25
Ошибочный генератор OpenAPI создает нулевые элементы массива

Последнее сообщение Anonymous « 17 май 2025, 00:42
Добавлено в форуме C#

Anonymous » 17 май 2025, 00:42 » в форуме C#

У меня есть такой компонент в swagger.json (openapi версия: 3.0.1 )
ids : {
type : array ,
items : {
type : string ,
format : uuid ,
nullable : true,
x-nullable : true
},
nullable : true,
x-nullable : true
}

с генератором OpenAPI я...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
17 май 2025, 00:42
Как нажать CTRL+T и CTRL+TAB в Selenium WebDriver с помощью Java?

Последнее сообщение Anonymous « 16 сен 2024, 08:07
Добавлено в форуме JAVA

Anonymous » 16 сен 2024, 08:07 » в форуме JAVA

Привет всем!

Для одного моего проекта мне нужно открыть новую вкладку и перемещаться между
вкладками для то же самое мне нужно знать, как я могу нажать CTRL+T и
CTRL+TAB в Selenium Webdriver с использованием Java.

Пожалуйста, дайте мне знать, как...

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
16 сен 2024, 08:07
Как нажать CTRL+T и CTRL+TAB в Selenium WebDriver с помощью Java?

Последнее сообщение Anonymous « 15 янв 2025, 12:01
Добавлено в форуме JAVA

Anonymous » 15 янв 2025, 12:01 » в форуме JAVA

Привет всем!

Для одного моего проекта мне нужно открыть новую вкладку и перемещаться между
вкладками для то же самое мне нужно знать, как я могу нажать CTRL+T и
CTRL+TAB в Selenium Webdriver с использованием Java.

Пожалуйста, дайте мне знать, как...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
15 янв 2025, 12:01

Вернуться в «Python»