Загрузить поврежденный файл JSON

Загрузить поврежденный файл JSON ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 17 янв 2025, 13:11

есть файл размером в сотни мегабайт, который должен быть json-файлом. К сожалению, файл был закрыт с ошибкой, а структура json неверна.
Более того, файл представляет собой однострочную строку.
Файл заканчивается многочисленными ....\x00\ x00\x00
Я пробовал много вариантов чтения файла JSON с контролем ошибок и ручным декодированием, но все равно не могу проанализировать данные в кадре данных pandas.
Последняя идея, на которой я остановился: прочитать по строке:

Код: Выделить всё

with open('data.json', 'r', encoding='utf-8') as f:
dt = f.read()

а затем мне пришлось работать со строкой как со строкой и попытаться исправить структуру json, найдя последний правильный блок данных и добавив пропущенные символы }] и конец, чтобы разрешить json. функция декодирования работает правильно.
Есть ли другие варианты, такие как частичное чтение файла или автоматическое исправление ошибок в структуре json?
Я тоже пробовал такой подход :

Код: Выделить всё

import json
import re

class LazyDecoder(json.JSONDecoder):
def decode(self, s, **kwargs):
regex_replacements = [
(re.compile(r'([^\\])\\([^\\])'), r'\1\\\\\2'),
(re.compile(r',(\s*])'), r'\1'),
]
for regex, replacement in regex_replacements:
s = regex.sub(replacement, s)
return super().decode(s, **kwargs)

with open(r'data.json') as result:
data = json.load(result, cls=LazyDecoder, strict=False)

но выдает ошибку с разделителем JSONDecodeError: Ожидается разделитель ',': строка 1, столбец 73900 (символ 73899)

Подробнее здесь: https://stackoverflow.com/questions/793 ... -json-file

1737108718

Anonymous

есть файл размером в сотни мегабайт, который должен быть json-файлом. К сожалению, файл был закрыт с ошибкой, а структура json неверна.
Более того, файл представляет собой однострочную строку.
Файл заканчивается многочисленными ....\x00\ x00\x00
Я пробовал много вариантов чтения файла JSON с контролем ошибок и ручным декодированием, но все равно не могу проанализировать данные в кадре данных pandas.
Последняя идея, на которой я остановился: прочитать по строке:
[code]with open('data.json', 'r', encoding='utf-8') as f:
dt = f.read()
[/code]
а затем мне пришлось работать со строкой как со строкой и попытаться исправить структуру json, найдя последний правильный блок данных и добавив пропущенные символы }] и конец, чтобы разрешить json. функция декодирования работает правильно.
Есть ли другие варианты, такие как частичное чтение файла или автоматическое исправление ошибок в структуре json?
Я тоже пробовал такой подход :
[code]import json
import re

class LazyDecoder(json.JSONDecoder):
def decode(self, s, **kwargs):
regex_replacements = [
(re.compile(r'([^\\])\\([^\\])'), r'\1\\\\\2'),
(re.compile(r',(\s*])'), r'\1'),
]
for regex, replacement in regex_replacements:
s = regex.sub(replacement, s)
return super().decode(s, **kwargs)

with open(r'data.json') as result:
data = json.load(result, cls=LazyDecoder, strict=False)
[/code]
но выдает ошибку с разделителем JSONDecodeError: Ожидается разделитель ',': строка 1, столбец 73900 (символ 73899) 

Подробнее здесь: [url]https://stackoverflow.com/questions/79364388/load-broken-json-file[/url]