Анализировать очень большие файлы CSV с C ++C++

Программы на C++. Форум разработчиков
Ответить
Anonymous
 Анализировать очень большие файлы CSV с C ++

Сообщение Anonymous »

Моя цель состоит в том, чтобы анализировать большие файлы CSV с помощью C ++ в проекте QT в среде OSX.
(когда я говорю CSV, я имею в виду TSV и другие варианты 1 ГБ ~ 5 ГБ). < /p>
< P> кажется простой задачей, но все становится сложным, когда размеры файлов становятся больше. Я не хочу писать свой собственный анализатор из -за множества случаев, связанных с файлами CSV, а также Около 90 ~ 120 секунд на моей машине, что неприемлемо. Я сейчас ничего не делаю с данными, я просто обрабатываю и отбрасываю данные для целей тестирования. Но единственной достаточно быстрой библиотекой была Fast-CPP-CSV-Parser, которая дает приемлемые результаты: 15 секунд на моей машине, но она работает только тогда, когда структура файла известна. < /P>
Пример с использованием : fast-cpp-csv-parser < /p>
#include "csv.h"

int main(){
io::CSVReader in("ram.csv");
in.read_header(io::ignore_extra_column, "vendor", "size", "speed");
std::string vendor; int size; double speed;
while(in.read_row(vendor, size, speed)){
// do stuff with the data
}
}
< /code>
Как видите, я не могу загрузить произвольные файлы, и я должен специфически определить переменные в соответствии с моей структурой файла. Я не знаю ни о каком методе, который позволяет мне динамически создавать эти переменные во время выполнения. -Пырсер класс Linereader, который действительно быстрый (около 7 секунд для чтения всего файла), а затем анализируйте каждую строку с помощью CCCSVParser Lib, который может обрабатывать строки, но это займет около 40 секунд, пока не сделано, это улучшение по сравнению с первыми попытками, но но это все еще неприемлем. Потратил много времени на поиск, чтобы найти решение этой проблемы, и я действительно скучаю по свободе, которую менеджеры пакетов, такие как npm или pip , предлагают при поиске вне решений коробки .
Я буду признателен за любое предложение о том, как решить эту проблему. /> При использовании подхода @fbucek время обработки сокращено до 25 секунд, что является большим улучшением.
Можем ли мы оптимизировать это еще больше? < /п>

Подробнее здесь: https://stackoverflow.com/questions/274 ... les-with-c
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «C++»