Синтаксический анализ частичных фрагментов json с помощью simdjson/rapidjson

Синтаксический анализ частичных фрагментов json с помощью simdjson/rapidjson ⇐ C++

1 сообщение • Страница 1 из 1

Anonymous

Синтаксический анализ частичных фрагментов json с помощью simdjson/rapidjson

Цитата

Сообщение Anonymous » 10 янв 2025, 02:43

У меня есть несколько больших файлов json.gz, и я пытаюсь проанализировать эти файлы с помощью такой библиотеки, как simdjson/

Код: Выделить всё

rapidjson. Поскольку файлы в сжатом состоянии довольно большие (7 ГБ), я написал некоторый код для получения фрагментами распакованного потока строки json из файла gz.
Поскольку фрагменты json потоковые данные основаны на буфере памяти, большинство фрагментов являются недопустимыми json, а элементы могут быть закрыты только через несколько фрагментов в строке, а json глубоко вложен и сложен. Таким образом, простой анализ каждого фрагмента не работает, поскольку должен быть некоторый кеш на случай, если элементы закончатся и т. д.
Есть ли способ справиться с этим с помощью simdjson или RapidJson?
Я ни в коем случае не силен в C++, поэтому буду очень признателен за любую помощь!
Вот код:
#include 
#include 
#include 
#include 
#include "simdjson.h"

const int CHUNK_SIZE = 10240;

void decompress(const std::string &filename) {

gzFile gzFile = gzopen(filename.c_str(), "rb");

if (!gzFile) {
std::cerr 

Подробнее здесь: [url]https://stackoverflow.com/questions/79344306/parsing-partial-json-chunks-with-simdjson-rapidjson[/url]

1736466236

Anonymous

У меня есть несколько больших файлов json.gz, и я пытаюсь проанализировать эти файлы с помощью такой библиотеки, как simdjson/[code]rapidjson. Поскольку файлы в сжатом состоянии довольно большие (7 ГБ), я написал некоторый код для получения фрагментами распакованного потока строки json из файла gz.
Поскольку фрагменты json потоковые данные основаны на буфере памяти, большинство фрагментов являются недопустимыми json, а элементы могут быть закрыты только через несколько фрагментов в строке, а json глубоко вложен и сложен. Таким образом, простой анализ каждого фрагмента не работает, поскольку должен быть некоторый кеш на случай, если элементы закончатся и т. д.
Есть ли способ справиться с этим с помощью simdjson или RapidJson?
Я ни в коем случае не силен в C++, поэтому буду очень признателен за любую помощь!
Вот код:
#include 
#include 
#include 
#include 
#include "simdjson.h"

const int CHUNK_SIZE = 10240;

void decompress(const std::string &filename) {

gzFile gzFile = gzopen(filename.c_str(), "rb");

if (!gzFile) {
std::cerr 

Подробнее здесь: [url]https://stackoverflow.com/questions/79344306/parsing-partial-json-chunks-with-simdjson-rapidjson[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Синтаксический анализ частичных фрагментов json с помощью simdjson/rapidjson

Последнее сообщение Anonymous « 10 янв 2025, 12:32
Добавлено в форуме C++

Anonymous » 10 янв 2025, 12:32 » в форуме C++

У меня есть несколько больших файлов json.gz, и я пытаюсь проанализировать эти файлы с помощью такой библиотеки, как simdjson/ rapidjson. Поскольку файлы в сжатом состоянии довольно большие (7 ГБ), я написал некоторый код для получения фрагментами...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
10 янв 2025, 12:32
Совместное использование RapidJSON и Assimp приводит к непредсказуемому поведению RapidJSON.

Последнее сообщение Anonymous « 28 фев 2024, 11:59
Добавлено в форуме C++

Anonymous » 28 фев 2024, 11:59 » в форуме C++

У меня есть следующая тестовая программа (test.gltf — это файл, содержащий только «{}»):

#include assimp/Importer.hpp #include assimp/postprocess.h #include assimp/scene.h #include rapidjson/document.h #include интервал основной() { std::cout

0 Ответы

72 Просмотры

Последнее сообщение Anonymous
28 фев 2024, 11:59
Эффективный синтаксический анализ и обработка миллионов json-объектов в Python

Последнее сообщение Anonymous « 15 янв 2025, 20:38
Добавлено в форуме Python

Anonymous » 15 янв 2025, 20:38 » в форуме Python

У меня есть рабочий код, время выполнения которого нужно значительно улучшить, и я совершенно растерялся. По сути, я получу zip-папки, содержащие десятки тысяч файлов JSON, каждый из которых содержит примерно 1000 сообщений JSON. В каждом из этих...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
15 янв 2025, 20:38
Эффективный синтаксический анализ и обработка миллионов json-объектов в Python

Последнее сообщение Anonymous « 15 янв 2025, 23:56
Добавлено в форуме Python

Anonymous » 15 янв 2025, 23:56 » в форуме Python

У меня есть рабочий код, время выполнения которого нужно значительно улучшить, и я совершенно растерялся. По сути, я получу zip-папки, содержащие десятки тысяч файлов JSON, каждый из которых содержит примерно 1000 сообщений JSON. В каждом из этих...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
15 янв 2025, 23:56
Эффективный синтаксический анализ и обработка миллионов json-объектов в Python

Последнее сообщение Anonymous « 16 янв 2025, 17:14
Добавлено в форуме Python

Anonymous » 16 янв 2025, 17:14 » в форуме Python

У меня есть рабочий код, время выполнения которого нужно значительно улучшить, и я совершенно растерялся. По сути, я получу zip-папки, содержащие десятки тысяч файлов JSON, каждый из которых содержит примерно 1000 сообщений JSON. В каждом из этих...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
16 янв 2025, 17:14

Вернуться в «C++»