Какие библиотеки Python лучше всего подходят для создания инструмента преобразования PDF в HTML? [закрыто]Html

Программисты Html
Ответить
Anonymous
 Какие библиотеки Python лучше всего подходят для создания инструмента преобразования PDF в HTML? [закрыто]

Сообщение Anonymous »

Я планирую создать инструмент преобразования PDF в HTML с использованием Python, и в настоящее время я нахожусь на этапе проектирования и изучения проекта.
Основная цель этого инструмента –:
  • преобразовать PDF-файлы в хорошо структурированный HTML
  • сохранить текст контент
  • Поддерживать основные элементы макета, такие как абзацы и заголовки
  • Правильно обрабатывать изображения
  • Дополнительно поддерживать несколько PDF-файлов за один запуск (пакетная обработка)
На данном этапе я не прошу полного кода, но я хочу понять концептуальный подход и рекомендуемые библиотеки Python для такого рода проектов.
В частности, мне хотелось бы узнать:
  • Какие библиотеки Python обычно используются для анализа PDF-файлов и текста извлечение
  • Библиотеки, которые помогают с сохранением макета (шрифты, расположение, интервалы)
  • Инструменты или библиотеки для преобразования извлеченного контента в HTML
  • Любые библиотеки, которые могут помочь с изображениями внутри PDF-файлы
  • Предложения по эффективной обработке нескольких файлов (например, параллелизм или многопоточность)
  • Рекомендации и ограничения, о которых мне следует знать при преобразовании PDF-файлов в HTML
Я хочу следовать чистому и удобному в обслуживании файлу подход, поэтому понимание правильных библиотек и их роли в общем рабочем процессе будет очень полезно.
Любые объяснения, рекомендации библиотек или практические идеи будут оценены по достоинству.

Спасибо!

Подробнее здесь: https://stackoverflow.com/questions/798 ... rsion-tool
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Html»