Apache PDFBox использует ~1,6 ГБ ОЗУ для рендеринга одностраничного отсканированного PDF-файла — следует ли оптимизирова

Apache PDFBox использует ~1,6 ГБ ОЗУ для рендеринга одностраничного отсканированного PDF-файла — следует ли оптимизирова ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Apache PDFBox использует ~1,6 ГБ ОЗУ для рендеринга одностраничного отсканированного PDF-файла — следует ли оптимизирова

Цитата

Сообщение Anonymous » 22 дек 2025, 09:43

У меня есть служба Java, которая преобразует PDF-файлы в изображения с помощью Apache PDFBox.

Для большинства текстовых PDF-файлов это работает нормально, но для некоторых отсканированных PDF-файлов, содержащих только изображения, использование памяти становится чрезвычайно высоким.
метрики

Описание проблемы

PDF: 1 страница, отсканированный счет
Содержимое: одно большое встроенное изображение (без текстового слоя)
Операция: преобразование страницы PDF в изображение
Библиотека: Apache PDFBox
Результат: ~1,6 ГБ пикового использования памяти для одного страница

Я тестировал PyMuPDF (fitz) на Python, который отображает тот же документ с разрешением 200–300 точек на дюйм, используя десятки МБ, а не сотни или ГБ.

Вопрос

От технического и архитектурного отдела перспектива:

Разумно ли продолжать использовать Java + PDFBox и попытаться оптимизировать использование памяти?
Или это тот случай, когда Python + PyMuPDF принципиально лучше подходит для отсканированных PDF-файлов или PDF-файлов с большим количеством изображений?
Когда вместо этого имеет смысл внедрить службу рендеринга документов на основе Python

Я ищу не мнения о языковых предпочтениях, а практические рекомендации, основанные на поведении памяти, внутреннем устройстве PDF и рабочих нагрузках.

Подробнее здесь: https://stackoverflow.com/questions/798 ... -i-optimiz

1766385828

Anonymous

У меня есть служба Java, которая преобразует PDF-файлы в изображения с помощью [b]Apache PDFBox[/b].

Для большинства текстовых PDF-файлов это работает нормально, но для некоторых [b]отсканированных PDF-файлов, содержащих только изображения[/b], использование памяти становится чрезвычайно высоким.
метрики
[h4]Описание проблемы[/h4]
[list]
[*]PDF: 1 страница, отсканированный счет

[*]Содержимое: одно большое встроенное изображение (без текстового слоя)

[*]Операция: преобразование страницы PDF в изображение

[*]Библиотека: Apache PDFBox

[*]Результат: [b]~1,6 ГБ пикового использования памяти[/b] для одного страница

[/list]
Я тестировал [b]PyMuPDF (fitz) на Python[/b], который отображает тот же документ с разрешением 200–300 точек на дюйм, используя [b]десятки МБ[/b], а не сотни или ГБ.
[h4]Вопрос[/h4]
От [b]технического и архитектурного отдела перспектива[/b]:
[list]
[*]Разумно ли продолжать использовать [b]Java + PDFBox[/b] и попытаться оптимизировать использование памяти?

[*]Или это тот случай, когда [b]Python + PyMuPDF[/b] принципиально лучше подходит для отсканированных PDF-файлов или PDF-файлов с большим количеством изображений?

[*]Когда вместо этого имеет смысл внедрить службу рендеринга документов на основе Python

[/list]
Я ищу не мнения о языковых предпочтениях, а [b]практические рекомендации, основанные на поведении памяти, внутреннем устройстве PDF и рабочих нагрузках[/b]. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79852647/apache-pdfbox-uses-1-6-gb-ram-to-render-a-1-page-scanned-pdf-should-i-optimiz[/url]