Как преобразовать пути в PDF-файле в текстC#

Место общения программистов C#
Ответить
Anonymous
 Как преобразовать пути в PDF-файле в текст

Сообщение Anonymous »

Файлы PDF не содержат ни изображений, ни текста. Текст, видимый на странице, отображается как путь.
Попробовал PdfPig (https://github.com/UglyToad/PdfPig), используя

Код: Выделить всё

using PdfDocument document = PdfDocument.Open(stream, SkiaRenderingParsingOptions.Instance );
string ptxt = "";
foreach(PdfPath p in page.Paths)
ptxt += p.ToString();
Console.WriteLine(ptxt);
Вывод:

UglyToad.PdfPig.Graphics.PdfPath

Как преобразовать такие PDF-файлы в обычный текст? Если прямое преобразование невозможно, как преобразовать PDF-файл в изображение для передачи в OCR?
Файлы PDF также могут содержать текстовые объекты, из которых текст можно извлечь напрямую.
PdfPig предоставляет коллекцию Paths, которую можно использовать для извлечения каждого объекта Path.
Как преобразовать каждый объект Path в изображение? Исходный код PDF Viewer должен содержать это.
Как использовать OpenCv или SkiaSharp для этого преобразования?
Это приложение .NET 9 ASP.NET MVC.

Подробнее здесь: https://stackoverflow.com/questions/798 ... le-to-text
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «C#»