PDFBox получает ограничивающую рамку текстовых результатов неправильного размера

PDFBox получает ограничивающую рамку текстовых результатов неправильного размера ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

PDFBox получает ограничивающую рамку текстовых результатов неправильного размера

Цитата

Сообщение Anonymous » 23 июл 2024, 13:03

Я хочу использовать PDFBox, чтобы получить тексты из PDF-файла с их ограничивающими рамками. Мне удалось собрать здесь код, который делает почти это, но, как вы можете видеть, полученные мной ограничивающие рамки (нарисованные синим цветом) имеют неправильный размер, как если бы я выбрал тексты. Где в моем коде расчеты могли пойти не так?

Код: Выделить всё

class CustomPDFTextStripper : PDFTextStripper() {

@Throws(IOException::class)
override fun writeString(text: String, textPositions: List) {
// Initialize bounding box coordinates
val wordSeparator = wordSeparator
val word: MutableList = ArrayList()

// Get the page height to correctly adjust the Y-coordinates
val page = document.getPage(0)
val pageHeight = page.mediaBox.height

for (text in textPositions) {
val thisChar = text.unicode
if (thisChar != null && thisChar.isNotEmpty()) {
if (thisChar != wordSeparator) {
word.add(text)
} else if (word.isNotEmpty()) {
printWord(word, pageHeight)
word.clear()
}
}
}
if (word.isNotEmpty()) {
printWord(word, pageHeight)
}
}

@Throws(IOException::class)
fun printWord(word: List, pageHeight: Float) {
if (word.isEmpty()) return

// Create a bounding box for the word
var boundingBox: Rectangle2D? = null
for (text in word) {
val box = Rectangle2D.Float(text.xDirAdj, pageHeight - text.yDirAdj - text.heightDir, text.widthDirAdj, text.heightDir)
if (boundingBox == null) {
boundingBox = box
} else {
boundingBox.add(box)
}
}

// Draw the bounding box
val page = document.getPage(0) // Assumes drawing on the first page
PDPageContentStream(document, page, PDPageContentStream.AppendMode.APPEND, true, true).use { contentStream ->
contentStream.setStrokingColor(Color.BLUE)
contentStream.setLineWidth(1f)
if (boundingBox != null) {
contentStream.addRect(boundingBox.x.toFloat(), boundingBox.y.toFloat()+boundingBox.height.toFloat(), boundingBox.width.toFloat(), boundingBox.height.toFloat())
contentStream.stroke()
}
}

// Print word and bounding box details
val builder = StringBuilder()
for (text in word) {
builder.append(text.unicode)
}
println("${builder.toString()} [(X=${boundingBox!!.x}, Y=${boundingBox.y}) height=${boundingBox.height} width=${boundingBox.width}]")
}

Результат:
[img]https://i.sstatic .net/MaUoZpBW.png[/img]

Подробнее здесь: https://stackoverflow.com/questions/787 ... rrect-size

1721729039

Anonymous

Я хочу использовать PDFBox, чтобы получить тексты из PDF-файла с их ограничивающими рамками. Мне удалось собрать здесь код, который делает почти это, но, как вы можете видеть, полученные мной ограничивающие рамки (нарисованные синим цветом) имеют неправильный размер, как если бы я выбрал тексты. Где в моем коде расчеты могли пойти не так?
[code]class CustomPDFTextStripper : PDFTextStripper() {

@Throws(IOException::class)
override fun writeString(text: String, textPositions: List) {
// Initialize bounding box coordinates
val wordSeparator = wordSeparator
val word: MutableList = ArrayList()

// Get the page height to correctly adjust the Y-coordinates
val page = document.getPage(0)
val pageHeight = page.mediaBox.height

for (text in textPositions) {
val thisChar = text.unicode
if (thisChar != null && thisChar.isNotEmpty()) {
if (thisChar != wordSeparator) {
word.add(text)
} else if (word.isNotEmpty()) {
printWord(word, pageHeight)
word.clear()
}
}
}
if (word.isNotEmpty()) {
printWord(word, pageHeight)
}
}

@Throws(IOException::class)
fun printWord(word: List, pageHeight: Float) {
if (word.isEmpty()) return

// Create a bounding box for the word
var boundingBox: Rectangle2D? = null
for (text in word) {
val box = Rectangle2D.Float(text.xDirAdj, pageHeight - text.yDirAdj - text.heightDir, text.widthDirAdj, text.heightDir)
if (boundingBox == null) {
boundingBox = box
} else {
boundingBox.add(box)
}
}

// Draw the bounding box
val page = document.getPage(0) // Assumes drawing on the first page
PDPageContentStream(document, page, PDPageContentStream.AppendMode.APPEND, true, true).use { contentStream ->
contentStream.setStrokingColor(Color.BLUE)
contentStream.setLineWidth(1f)
if (boundingBox != null) {
contentStream.addRect(boundingBox.x.toFloat(), boundingBox.y.toFloat()+boundingBox.height.toFloat(), boundingBox.width.toFloat(), boundingBox.height.toFloat())
contentStream.stroke()
}
}

// Print word and bounding box details
val builder = StringBuilder()
for (text in word) {
builder.append(text.unicode)
}
println("${builder.toString()} [(X=${boundingBox!!.x}, Y=${boundingBox.y}) height=${boundingBox.height} width=${boundingBox.width}]")
}
[/code]

Результат:
[img]https://i.sstatic .net/MaUoZpBW.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78782827/pdfbox-get-bounding-box-of-text-results-in-incorrect-size[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как получить правильную ограничивающую рамку списка и таблицы с помощью pdfbox из PDF-документа с тегами

Последнее сообщение Anonymous « 26 июн 2024, 07:35
Добавлено в форуме JAVA

Anonymous » 26 июн 2024, 07:35 » в форуме JAVA

Я пытаюсь сохранить тег из документа PDF с тегами. Я попробовал один подход, но мне нужно

получить правильную ограничивающую рамку таблицы и списка, используя следующий код. пожалуйста, помогите кому-нибудь в этом.
public void...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
26 июн 2024, 07:35
Как получить правильную ограничивающую рамку списка и таблицы с помощью pdfbox из PDF-документа с тегами

Последнее сообщение Anonymous « 26 июн 2024, 11:13
Добавлено в форуме JAVA

Anonymous » 26 июн 2024, 11:13 » в форуме JAVA

Я пытаюсь сохранить тег из документа PDF с тегами. Я попробовал один подход, но мне нужно

получить правильную ограничивающую рамку таблицы и списка, используя следующий код. пожалуйста, помогите кому-нибудь в этом.
public void...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
26 июн 2024, 11:13
YOLOv8 получает прогнозируемую ограничивающую рамку

Последнее сообщение Anonymous « 29 июн 2024, 09:52
Добавлено в форуме Python

Anonymous » 29 июн 2024, 09:52 » в форуме Python

Я хочу интегрировать OpenCV с YOLOv8 из ultralytics, поэтому я хочу получить координаты ограничивающего прямоугольника из прогноза модели. Как мне это сделать?
from ultralytics import YOLO
import cv2

model = YOLO('yolov8n.pt')
cap =...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 09:52
Как обнаружить линии и нарисовать ограничивающую рамку этой линии на рукописных буквах, используя CV2

Последнее сообщение Anonymous « 01 апр 2024, 12:41
Добавлено в форуме Python

Anonymous » 01 апр 2024, 12:41 » в форуме Python

Я работаю над отсканированным изображением, которое по сути представляет собой рукописное письмо. Моя цель — найти ограничивающие рамки каждой строки на этом изображении. Но ограничивающие рамки не должны перекрывать друг друга.
Входное...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
01 апр 2024, 12:41
Обнаружение края OpenCV не рисует ограничивающую рамку

Последнее сообщение Anonymous « 26 апр 2024, 08:59
Добавлено в форуме Python

Anonymous » 26 апр 2024, 08:59 » в форуме Python

У меня есть изображение, для которого я хотел бы обнаружить края и нарисовать к нему ограничивающую рамку. Моя проблема в том, что мой код Python не рисует ограничивающую рамку, и я не уверен, что это потому, что он не смог ее обнаружить. объекты в...

0 Ответы

52 Просмотры

Последнее сообщение Anonymous
26 апр 2024, 08:59

Вернуться в «JAVA»