Распознавание текста в PDF-файле, повернутом под любым углом

Распознавание текста в PDF-файле, повернутом под любым углом ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Распознавание текста в PDF-файле, повернутом под любым углом

Цитата

Сообщение Anonymous » 07 янв 2025, 16:28

У меня есть простая программа (код из документации библиотеки docTR), распознающая текст в pdf-файле. Если текст идеально выровнен, то проблем с распознаванием текста нет, но если документ повернут вправо или влево, то начинаются проблемы с распознаванием текста.

[img]https://i.sstatic. net/lYBxQ.png[/img]

Я могу получить документы, которые не только повернуты ровно на 90, 180 или 270 градусов. Криво отсканированные документы могут быть повернуты под любым углом (как на картинках выше).
Хотелось бы с вашей помощью найти решение, которое поможет мне повернуть таблицу/текст (или весь PDF-файл) в моем PDF-файле напрямую, для облегчения распознавания текста, как на рисунке ниже.
[img]https://i.sstatic .net/bMVtn.jpg[/img]

Возможно, подобные решения уже есть, но я их пока не нашел. Я был бы признателен, если бы вы указали мне на существующие решения или помогли мне написать код с использованием моего собственного решения.
from doctr.io import DocumentFile
from doctr.models import ocr_predictor

ocr = ocr_predictor(pretrained=True)

doc = DocumentFile.from_pdf("my/path.pdf")
result = ocr(doc)
result.show(doc)

Подробнее здесь: https://stackoverflow.com/questions/767 ... -any-angle

1736256524

Anonymous

У меня есть простая программа (код из документации библиотеки docTR), распознающая текст в pdf-файле. Если текст идеально выровнен, то проблем с распознаванием текста нет, но если документ повернут вправо или влево, то начинаются проблемы с распознаванием текста.
[img]https://i.sstatic.net/0OTUt.jpg[/img]
[img]https://i.sstatic. net/lYBxQ.png[/img]

Я могу получить документы, которые не только повернуты ровно на 90, 180 или 270 градусов. Криво отсканированные документы могут быть повернуты под любым углом (как на картинках выше).
Хотелось бы с вашей помощью найти решение, которое поможет мне повернуть таблицу/текст (или весь PDF-файл) в моем PDF-файле напрямую, для облегчения распознавания текста, как на рисунке ниже.
[img]https://i.sstatic .net/bMVtn.jpg[/img]

Возможно, подобные решения уже есть, но я их пока не нашел. Я был бы признателен, если бы вы указали мне на существующие решения или помогли мне написать код с использованием моего собственного решения.
from doctr.io import DocumentFile
from doctr.models import ocr_predictor

ocr = ocr_predictor(pretrained=True)

doc = DocumentFile.from_pdf("my/path.pdf")
result = ocr(doc)
result.show(doc)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/76702297/recognize-text-in-a-pdf-file-rotated-at-any-angle[/url]