Я использую pdfbox 2.8, и мне нужно: < /p>
Извлекать позиции конкретных строк заполнителей, таких как: < /p>
@@ signature_client@ @
@@ signature_customer @@
из документа PDF. Как можно больше.
У меня есть этот экземпляр кода: < /p>
File inputFile = new File("exemple.pdf");
PDDocument document = PDDocument.load(inputFile);
for (PDPage page : document.getPages()) {
InputStream is = page.getContents();
if (is != null) {
String content = new String(is.readAllBytes(), "ISO-8859-1");
is.close();
content = content.replaceAll("@@[^@]+@@", " ");
PDStream newStream = new PDStream(document);
OutputStream os = newStream.createOutputStream(COSName.FLATE_DECODE);
os.write(content.getBytes("ISO-8859-1"));
os.close();
page.setContents(newStream);
}
}
document.save("output.pdf");
document.close();
< /code>
Однако, когда текст находится внутри таблицы или прямоугольника, и когда текст имеет цвет или цвет фона, он не удален. < /p>
не могли бы вы подать мне это исправить?
Спасибо!
Подробнее здесь: https://stackoverflow.com/questions/794 ... with-empty