Для большинства текстовых PDF-файлов это работает нормально, но для некоторых отсканированных PDF-файлов, содержащих только изображения, использование памяти становится чрезвычайно высоким.
метрики
Описание проблемы
- PDF: 1 страница, отсканированный счет
- Содержимое: одно большое встроенное изображение (без текстового слоя)
- Операция: преобразование страницы PDF в изображение
- Библиотека: Apache PDFBox
- Результат: ~1,6 ГБ пикового использования памяти для одного страница
Вопрос
От технического и архитектурного отдела перспектива:- Разумно ли продолжать использовать Java + PDFBox и попытаться оптимизировать использование памяти?
- Или это тот случай, когда Python + PyMuPDF принципиально лучше подходит для отсканированных PDF-файлов или PDF-файлов с большим количеством изображений?
- Когда вместо этого имеет смысл внедрить службу рендеринга документов на основе Python
Подробнее здесь: https://stackoverflow.com/questions/798 ... -i-optimiz
Мобильная версия