Основная цель этого инструмента –:
- преобразовать PDF-файлы в хорошо структурированный HTML
- сохранить текст контент
- Поддерживать основные элементы макета, такие как абзацы и заголовки
- Правильно обрабатывать изображения
- Дополнительно поддерживать несколько PDF-файлов за один запуск (пакетная обработка)
В частности, мне хотелось бы узнать:
- Какие библиотеки Python обычно используются для анализа PDF-файлов и текста извлечение
- Библиотеки, которые помогают с сохранением макета (шрифты, расположение, интервалы)
- Инструменты или библиотеки для преобразования извлеченного контента в HTML
- Любые библиотеки, которые могут помочь с изображениями внутри PDF-файлы
- Предложения по эффективной обработке нескольких файлов (например, параллелизм или многопоточность)
- Рекомендации и ограничения, о которых мне следует знать при преобразовании PDF-файлов в HTML
Любые объяснения, рекомендации библиотек или практические идеи будут оценены по достоинству.
Спасибо!
Подробнее здесь: https://stackoverflow.com/questions/798 ... rsion-tool
Мобильная версия