Отфильтровать весь текст выше определенного размера шрифта из PDFJAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Отфильтровать весь текст выше определенного размера шрифта из PDF

Сообщение Anonymous »

Как сказано в заголовке, я хочу отфильтровать из PDF-файла весь текст, размер шрифта которого превышает определенный. В настоящее время я использую библиотеку PDFBox, но готов использовать любую другую бесплатную библиотеку для Java.

Мой подход заключался в использовании PDFStreamParser для перебора токенов. Когда я передаю оператор Tf, размер которого превышает мой порог, не добавляйте следующий видимый Tj/TJ. Однако мне стало ясно, что этот относительно простой подход не будет работать, поскольку текст может быть масштабирован с помощью текущей матрицы преобразования.

Есть ли лучший подход, который я мог бы использовать? или способ заставить мой подход работать, не усложняя его?

Подробнее здесь: https://stackoverflow.com/questions/584 ... e-from-pdf
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»