Эффективная тонкая настройка OCRPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Эффективная тонкая настройка OCR

Сообщение Anonymous »

Я работаю над проектом, который включает в себя чрезвычайно большое количество PDF. Каждый PDF является изображением обычного документа офисного типа. Каждая страница PDF хранится отдельный файл. Есть ли способ сделать это быстрее (то есть с более низким вычислительным временем), чем мой текущий подход? < /p>

С помощью проекта такого размера любое небольшое улучшение производительности приведет к значительному снижению затрат на вычисление /время. В настоящее время призыв к Tesseract занимает примерно 2-3 порядка больше времени, чем все другие шаги обработки в проекте. Я лишил Python от этого вызова для ясности. < /P>

ghostscript -o image.tiff -q -r300x300 -sCompression=none -sDEVICE=tiffgray page.pdf
< /code>

Затем я запускаю по существу следующую процедуру. < /p>

def ocr( image ):
import tesseract, cv2.cv as cv

# Load Tesseract
api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO)

# Load and OCR the image file
cv_image = cv.LoadImage(image, cv.CV_LOAD_IMAGE_GRAYSCALE)
tesseract.SetCvImage(cv_image, api)

# Return the text
return api.GetUTF8Text()
< /code>

Я немного упростил для ясности. Например, я на самом деле не загружаю Tesseract для каждого файла. Я обрабатываю исключения и т. Д. Однако различия не имеют значения, поскольку 99,9% случаев используется в вызове API.getUtf8text ().>

Подробнее здесь: https://stackoverflow.com/questions/161 ... finetuning
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Эффективная тонкая настройка OCR
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • Тонкая настройка GliNER — потери при проверке не регистрируются
    Anonymous » » в форуме Python
    0 Ответы
    15 Просмотры
    Последнее сообщение Anonymous
  • Тонкая настройка TrOCR в чипе Mac M4 (MPS)
    Anonymous » » в форуме Python
    0 Ответы
    22 Просмотры
    Последнее сообщение Anonymous
  • Тонкая настройка предварительно предварительно проведенной модели с квантованием и усилителем: ошибка масштаба «пытается
    Anonymous » » в форуме Python
    0 Ответы
    8 Просмотры
    Последнее сообщение Anonymous
  • Встроить/вставить/добавить данные JSON OCR, сгенерированные Google Cloud Vision (OCR)», в файл PDF и сделать PDF доступн
    Anonymous » » в форуме Php
    0 Ответы
    40 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»