Загрузить поврежденный файл JSONPython

Программы на Python
Ответить
Anonymous
 Загрузить поврежденный файл JSON

Сообщение Anonymous »

есть файл размером в сотни мегабайт, который должен быть json-файлом. К сожалению, файл был закрыт с ошибкой, а структура json неверна.
Более того, файл представляет собой однострочную строку.
Файл заканчивается многочисленными ....\x00\ x00\x00
Я пробовал много вариантов чтения файла JSON с контролем ошибок и ручным декодированием, но все равно не могу проанализировать данные в кадре данных pandas.
Последняя идея, на которой я остановился: прочитать по строке:

Код: Выделить всё

with open('data.json', 'r', encoding='utf-8') as f:
dt = f.read()
а затем мне пришлось работать со строкой как со строкой и попытаться исправить структуру json, найдя последний правильный блок данных и добавив пропущенные символы }] и конец, чтобы разрешить json. функция декодирования работает правильно.
Есть ли другие варианты, такие как частичное чтение файла или автоматическое исправление ошибок в структуре json?
Я тоже пробовал такой подход :

Код: Выделить всё

import json
import re

class LazyDecoder(json.JSONDecoder):
def decode(self, s, **kwargs):
regex_replacements = [
(re.compile(r'([^\\])\\([^\\])'), r'\1\\\\\2'),
(re.compile(r',(\s*])'), r'\1'),
]
for regex, replacement in regex_replacements:
s = regex.sub(replacement, s)
return super().decode(s, **kwargs)

with open(r'data.json') as result:
data = json.load(result, cls=LazyDecoder, strict=False)
но выдает ошибку с разделителем JSONDecodeError: Ожидается разделитель ',': строка 1, столбец 73900 (символ 73899)

Подробнее здесь: https://stackoverflow.com/questions/793 ... -json-file
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»