Я уже давно пытался сделать это право. У меня есть одностраничные PDF -файлы, которые передаются с .fileimporter в качестве URL. Эти PDF -файлы очень простые структурированные, напечатанный текст в упорядоченных таблицах (см. Пример изображения). Мне нужно извлечь весь текст, но в основном то, что находится в таблицах, в структурированном порядке. Есть так много сайтов, которые говорят, чтобы сделать такие вещи, чтобы получить текст PDF: < /p>
func extractText(from url: URL, appSettings: SettingsStorage) {
guard let document = PDFDocument(url: url),
let page = document.page(at: 0) else {
print("Fail")
return
}
if let structuredText = page.string {
print(structuredText)
}
}
< /code>
Да, это извлекает текст, но он ни в коем случае не структурирован. И да, я знаю, что в формате PDF нет «структуры». Это, конечно, потребует преобразования PDF в изображение. Это то, что я делаю в отношении этого: < /p>
func convertPDFToImage(url: URL) -> UIImage? {
guard let pdfDocument = PDFDocument(url: url) else {
return nil
}
if let pdfPage = pdfDocument.page(at: 0) {
let pdfPageSize = pdfPage.bounds(for: .mediaBox)
let renderer = UIGraphicsImageRenderer(size: pdfPageSize.size)
let image = renderer.image { ctx in
UIColor.lightText.set()
ctx.fill(pdfPageSize)
ctx.cgContext.translateBy(x: 0.0, y: pdfPageSize.size.height)
ctx.cgContext.scaleBy(x: 1.0, y: -1.0)
pdfPage.draw(with: .mediaBox, to: ctx.cgContext)
}
return image
} else {
return nil
}
}
< /code>
Это дает мне несовершенное изображение. Я пытался масштабировать, чтобы улучшить качество и т. Д., Но не исправляется. Может быть, этот способ устарел? func getConvertPDFAndGetText(url: URL) {
if let image = convertPDFToImage(url: url) {
guard let cgImage = image.cgImage else { return }
let handler = VNImageRequestHandler(cgImage: cgImage, options: [:])
let request = VNRecognizeTextRequest { request, error in
if let observations = request.results as? [VNRecognizedTextObservation] {
let topCandidates: [String] = observations.map { observation in
observation.topCandidates(1).first?.string ?? ""
}
print(topCandidates.joined(separator: " "))
}
}
do {
try handler.perform([request])
} catch {
print("error")
}
}
}
< /code>
Я не знаю, неправильно ли мое обращение в изображение или мое распознавание текста неправильно. Кто -нибудь может помочь мне здесь? Это было бесчисленное количество часов, пытаясь заставить это работать достаточно хорошо, чтобы поместить в производство.
Подробнее здесь: https://stackoverflow.com/questions/796 ... and-vision
Извлечение текста PDF в Swiftui Pdfkit и Vision ⇐ IOS
Программируем под IOS
-
Anonymous
1751247485
Anonymous
Я уже давно пытался сделать это право. У меня есть одностраничные PDF -файлы, которые передаются с .fileimporter в качестве URL. Эти PDF -файлы очень простые структурированные, напечатанный текст в упорядоченных таблицах (см. Пример изображения). Мне нужно извлечь весь текст, но в основном то, что находится в таблицах, в структурированном порядке. Есть так много сайтов, которые говорят, чтобы сделать такие вещи, чтобы получить текст PDF: < /p>
func extractText(from url: URL, appSettings: SettingsStorage) {
guard let document = PDFDocument(url: url),
let page = document.page(at: 0) else {
print("Fail")
return
}
if let structuredText = page.string {
print(structuredText)
}
}
< /code>
Да, это извлекает текст, но он ни в коем случае не структурирован. И да, я знаю, что в формате PDF нет «структуры». Это, конечно, потребует преобразования PDF в изображение. Это то, что я делаю в отношении этого: < /p>
func convertPDFToImage(url: URL) -> UIImage? {
guard let pdfDocument = PDFDocument(url: url) else {
return nil
}
if let pdfPage = pdfDocument.page(at: 0) {
let pdfPageSize = pdfPage.bounds(for: .mediaBox)
let renderer = UIGraphicsImageRenderer(size: pdfPageSize.size)
let image = renderer.image { ctx in
UIColor.lightText.set()
ctx.fill(pdfPageSize)
ctx.cgContext.translateBy(x: 0.0, y: pdfPageSize.size.height)
ctx.cgContext.scaleBy(x: 1.0, y: -1.0)
pdfPage.draw(with: .mediaBox, to: ctx.cgContext)
}
return image
} else {
return nil
}
}
< /code>
Это дает мне несовершенное изображение. Я пытался масштабировать, чтобы улучшить качество и т. Д., Но не исправляется. Может быть, этот способ устарел? func getConvertPDFAndGetText(url: URL) {
if let image = convertPDFToImage(url: url) {
guard let cgImage = image.cgImage else { return }
let handler = VNImageRequestHandler(cgImage: cgImage, options: [:])
let request = VNRecognizeTextRequest { request, error in
if let observations = request.results as? [VNRecognizedTextObservation] {
let topCandidates: [String] = observations.map { observation in
observation.topCandidates(1).first?.string ?? ""
}
print(topCandidates.joined(separator: " "))
}
}
do {
try handler.perform([request])
} catch {
print("error")
}
}
}
< /code>
Я не знаю, неправильно ли мое обращение в изображение или мое распознавание текста неправильно. Кто -нибудь может помочь мне здесь? Это было бесчисленное количество часов, пытаясь заставить это работать достаточно хорошо, чтобы поместить в производство.
Подробнее здесь: [url]https://stackoverflow.com/questions/79684161/extracting-pdf-text-in-swiftui-pdfkit-and-vision[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия