Улучшить результаты оптического распознавания изображений? - Цифровое Кемерово

Улучшить результаты оптического распознавания изображений? ⇐ IOS

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Улучшить результаты оптического распознавания изображений?

Цитата

Сообщение Anonymous » 10 окт 2024, 01:51

Я просто пытаюсь отсканировать информацию о кредитной карте с помощью зрения и получаю неоднозначные результаты. Карты без тиснения (которые сегодня кажутся более распространенными) с белым или светлым текстом вызывают больше всего проблем. Темный текст работает в основном нормально. Я чувствую, что могут возникнуть проблемы с ограниченным контрастом между буквами и фоном (серебряная карточка, белый текст). До сих пор я пытался изменить изображение на оттенки серого перед сканированием, а также увеличить контрастность и резкость, но это ухудшало результаты, когда текст не мог распознаваться. Что я могу сделать, чтобы улучшить свой код и получить лучшие результаты?
// MARK: Credit Card Image Recognition
open func detectRectangle(in image: CVPixelBuffer) {
let request = VNDetectRectanglesRequest(completionHandler: { (request, error) in
DispatchQueue.main.async {
guard let results = request.results as? [VNRectangleObservation], let result = results.first else { return }
self.doPerspectiveCorrection(result, from: image)
}
})

request.minimumAspectRatio = VNAspectRatio(1.3)
request.maximumAspectRatio = VNAspectRatio(1.3)
request.minimumSize = Float(0.5)
request.maximumObservations = 1

let imageHandler = VNImageRequestHandler(cvPixelBuffer: image, options: [:])
try? imageHandler.perform([request])
}

open func doPerspectiveCorrection(_ observation: VNRectangleObservation, from buffer: CVImageBuffer) {
var ciImage = CIImage(cvImageBuffer: buffer)

ciImage.cropped(to: holedOutRect)

let topLeft = observation.topLeft.scaled(to: ciImage.extent.size)
let topRight = observation.topRight.scaled(to: ciImage.extent.size)
let bottomLeft = observation.bottomLeft.scaled(to: ciImage.extent.size)
let bottomRight = observation.bottomRight.scaled(to: ciImage.extent.size)

ciImage = ciImage.applyingFilter("CIPerspectiveCorrection", parameters: [
"inputTopLeft": CIVector(cgPoint: topLeft),
"inputTopRight": CIVector(cgPoint: topRight),
"inputBottomLeft": CIVector(cgPoint: bottomLeft),
"inputBottomRight": CIVector(cgPoint: bottomRight),
])

let context = CIContext()
let cgImage = context.createCGImage(ciImage, from: ciImage.extent)
let output = UIImage(cgImage: cgImage!)

recognizeTextInImage(output)
}

open func recognizeTextInImage(_ image: UIImage) {
guard let cgImage = image.cgImage else { return }

textRecognitionWorkQueue.async {
guard !self.captured else { return }
let requestHandler = VNImageRequestHandler(cgImage: cgImage, options: [:])
do {
guard let textRecognitionRequest = self.textRecognitionRequest else { return }
try requestHandler.perform([textRecognitionRequest])
} catch {
print(error)
}
}
}

open func setupVision() {
textRecognitionRequest = VNRecognizeTextRequest { (request, error) in
guard !self.captured, let observations = request.results as? [VNRecognizedTextObservation] else { return }

let creditCard = CardModel()

for observation in observations {
guard let topCandidate = observation.topCandidates(1).first, topCandidate.confidence > 0.25 else { return }

let topCandidateString = topCandidate.string

if topCandidateString.isName {
creditCard.name = topCandidateString
}

if topCandidateString.isCardNumber {
creditCard.number = topCandidateString.onlyDigits
}

if topCandidateString.isExpirationDate {
creditCard.month = topCandidateString.expirationMonth
creditCard.year = topCandidateString.expirationYear
}
}

DispatchQueue.main.async {
guard let _ = creditCard.number else { return }
// Credit card number have been found, stop the camera capture session
self.hapticScanSuccessResponse()
self.showScannedCardDetails(name: creditCard.name, cardNumber: creditCard.number, expiryMonth: creditCard.month, expiryYear: creditCard.year)

DispatchQueue.main.asyncAfter(deadline: .now() + 1, execute: {
// Send it back to the calling protocol/delegate
guard !self.captured else { return }
self.captured = true
self.captureSession.stopRunning()

if self.embeddedAsView {
self.delegate?.didFinishScanningCreditCard?(cardModel: creditCard)
self.onDismissal?(creditCard)
} else {
self.dismiss(animated: true) {
self.delegate?.didFinishScanningCreditCard?(cardModel: creditCard)
}
}

})
}
}

textRecognitionRequest?.recognitionLevel = .accurate
}
}

// MARK: AVCaptureVideoDataOutputSampleBufferDelegate
extension PaymentScannerViewController: AVCaptureVideoDataOutputSampleBufferDelegate {

// AVCaptureVideoDataOutputSampleBufferDelegate -
open func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection) {
guard let imageBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else {
return
}

let ciImage = CIImage(cvPixelBuffer: imageBuffer)
guard let image = ciImage.convertToUIImage() else { return }

imageCounter += 1

// Reduces the amount of images processed to every 25th image in order to not reach max cpu usage
guard !captured && imageCounter.isMultiple(of: 25) else { return }
detectRectangle(in: imageBuffer)
}
}

Подробнее здесь: https://stackoverflow.com/questions/790 ... cr-results

Реклама

1728514302

Anonymous

Я просто пытаюсь отсканировать информацию о кредитной карте с помощью зрения и получаю неоднозначные результаты.  Карты без тиснения (которые сегодня кажутся более распространенными) с белым или светлым текстом вызывают больше всего проблем.  Темный текст работает в основном нормально.  Я чувствую, что могут возникнуть проблемы с ограниченным контрастом между буквами и фоном (серебряная карточка, белый текст).  До сих пор я пытался изменить изображение на оттенки серого перед сканированием, а также увеличить контрастность и резкость, но это ухудшало результаты, когда текст не мог распознаваться.   Что я могу сделать, чтобы улучшить свой код и получить лучшие результаты?
    // MARK: Credit Card Image Recognition
open func detectRectangle(in image: CVPixelBuffer) {
let request = VNDetectRectanglesRequest(completionHandler: { (request, error) in
DispatchQueue.main.async {
guard let results = request.results as? [VNRectangleObservation], let result = results.first else { return }
self.doPerspectiveCorrection(result, from: image)
}
})

request.minimumAspectRatio = VNAspectRatio(1.3)
request.maximumAspectRatio = VNAspectRatio(1.3)
request.minimumSize = Float(0.5)
request.maximumObservations = 1

let imageHandler = VNImageRequestHandler(cvPixelBuffer: image, options: [:])
try? imageHandler.perform([request])
}

open func doPerspectiveCorrection(_ observation: VNRectangleObservation, from buffer: CVImageBuffer) {
var ciImage = CIImage(cvImageBuffer: buffer)

ciImage.cropped(to: holedOutRect)

let topLeft = observation.topLeft.scaled(to: ciImage.extent.size)
let topRight = observation.topRight.scaled(to: ciImage.extent.size)
let bottomLeft = observation.bottomLeft.scaled(to: ciImage.extent.size)
let bottomRight = observation.bottomRight.scaled(to: ciImage.extent.size)

ciImage = ciImage.applyingFilter("CIPerspectiveCorrection", parameters: [
"inputTopLeft": CIVector(cgPoint: topLeft),
"inputTopRight": CIVector(cgPoint: topRight),
"inputBottomLeft": CIVector(cgPoint: bottomLeft),
"inputBottomRight": CIVector(cgPoint: bottomRight),
])

let context = CIContext()
let cgImage = context.createCGImage(ciImage, from: ciImage.extent)
let output = UIImage(cgImage: cgImage!)

recognizeTextInImage(output)
}

open func recognizeTextInImage(_ image: UIImage) {
guard let cgImage = image.cgImage else { return }

textRecognitionWorkQueue.async {
guard !self.captured else { return }
let requestHandler = VNImageRequestHandler(cgImage: cgImage, options: [:])
do {
guard let textRecognitionRequest = self.textRecognitionRequest else { return }
try requestHandler.perform([textRecognitionRequest])
} catch {
print(error)
}
}
}

open func setupVision() {
textRecognitionRequest = VNRecognizeTextRequest { (request, error) in
guard !self.captured, let observations = request.results as? [VNRecognizedTextObservation] else { return }

let creditCard = CardModel()

for observation in observations {
guard let topCandidate = observation.topCandidates(1).first, topCandidate.confidence >  0.25 else { return }

let topCandidateString = topCandidate.string

if topCandidateString.isName {
creditCard.name = topCandidateString
}

if topCandidateString.isCardNumber {
creditCard.number = topCandidateString.onlyDigits
}

if topCandidateString.isExpirationDate {
creditCard.month = topCandidateString.expirationMonth
creditCard.year = topCandidateString.expirationYear
}
}

DispatchQueue.main.async {
guard let _ = creditCard.number else { return }
// Credit card number have been found, stop the camera capture session
self.hapticScanSuccessResponse()
self.showScannedCardDetails(name: creditCard.name, cardNumber: creditCard.number, expiryMonth: creditCard.month, expiryYear: creditCard.year)

DispatchQueue.main.asyncAfter(deadline: .now() + 1, execute: {
// Send it back to the calling protocol/delegate
guard !self.captured else { return }
self.captured = true
self.captureSession.stopRunning()

if self.embeddedAsView {
self.delegate?.didFinishScanningCreditCard?(cardModel: creditCard)
self.onDismissal?(creditCard)
} else {
self.dismiss(animated: true) {
self.delegate?.didFinishScanningCreditCard?(cardModel: creditCard)
}
}

})
}
}

textRecognitionRequest?.recognitionLevel = .accurate
}
}

// MARK: AVCaptureVideoDataOutputSampleBufferDelegate
extension PaymentScannerViewController: AVCaptureVideoDataOutputSampleBufferDelegate {

// AVCaptureVideoDataOutputSampleBufferDelegate -
open func captureOutput(_ output: AVCaptureOutput, didOutput sampleBuffer: CMSampleBuffer, from connection: AVCaptureConnection) {
guard let imageBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else {
return
}

let ciImage = CIImage(cvPixelBuffer: imageBuffer)
guard let image = ciImage.convertToUIImage() else { return }

imageCounter += 1

// Reduces the amount of images processed to every 25th image in order to not reach max cpu usage
guard !captured && imageCounter.isMultiple(of: 25) else { return }
detectRectangle(in: imageBuffer)
}
}
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79072222/improve-vision-ocr-results[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Поиск рекомендаций по модели ML для улучшения оптического распознавания поврежденных текстовых изображений

Последнее сообщение Гость « 27 фев 2024, 18:55
Добавлено в форуме Python

Гость » 27 фев 2024, 18:55 » в форуме Python

Я работаю над проектом, в котором мне нужно выполнить оптическое распознавание символов (OCR) для текстовых изображений. Однако эти изображения повреждены различными способами (например, размыты, искажены, имеют низкое разрешение), что значительно...

0 Ответы

33 Просмотры

Последнее сообщение Гость
27 фев 2024, 18:55
Предварительная обработка изображений для оптического распознавания символов (pytesseract)

Последнее сообщение Anonymous « 02 мар 2024, 19:27
Добавлено в форуме Python

Anonymous » 02 мар 2024, 19:27 » в форуме Python

I'm trying to OCR image with pytesseract. Once I do the OCR for below image the result shows as WV over

What are the image pre-processing techniques that can be use to enhance this image by filling missing parts of text.

Enhance image OCR...

0 Ответы

119 Просмотры

Последнее сообщение Anonymous
02 мар 2024, 19:27
Предварительная обработка изображений в Python для оптического распознавания символов

Последнее сообщение Anonymous « 17 сен 2024, 20:19
Добавлено в форуме Python

Anonymous » 17 сен 2024, 20:19 » в форуме Python

Я занимаюсь предварительной обработкой изображений для оптического распознавания символов в Python. Я преобразовал PDF в двоичные изображения. Я получаю такой результат:

Я хочу, чтобы результат был примерно таким

https...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
17 сен 2024, 20:19
Предварительная обработка изображений в Python для оптического распознавания символов

Последнее сообщение Anonymous « 18 сен 2024, 00:13
Добавлено в форуме Python

Anonymous » 18 сен 2024, 00:13 » в форуме Python

Я занимаюсь предварительной обработкой изображений для оптического распознавания символов в Python. Я преобразовал PDF в двоичные изображения. Я получаю такой результат:

Я хочу, чтобы результат был примерно таким

https...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 00:13
Предварительная обработка изображений в Python для оптического распознавания символов [закрыто]

Последнее сообщение Anonymous « 18 сен 2024, 17:53
Добавлено в форуме Python

Anonymous » 18 сен 2024, 17:53 » в форуме Python

Я занимаюсь предварительной обработкой изображений для оптического распознавания символов в Python. Я преобразовал PDF в двоичные изображения. Я получаю такой результат:

Я хочу, чтобы результат был примерно таким

https...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 17:53

Вернуться в «IOS»

Programmiererforum