Извлечение текста из PDF [закрыто]C#

Место общения программистов C#
Ответить Пред. темаСлед. тема
Anonymous
 Извлечение текста из PDF [закрыто]

Сообщение Anonymous »

Я пробовал довольно много пакетов (уже пробовал PDFSharp, IronPDF, pigpdf, aspose, itext), чтобы помочь мне извлечь текст из файла PDF, но я продолжаю получать такого рода странные символы:
, показанные символы
, я пытался установить фигурные формы, но ни один из использованных инструментов был способен. /> К сожалению, я не могу поделиться исходным PDF из -за конфиденциальности, но я обнаружил, что они использовали «Adobe illutstrator 28.0 (macintosh), чтобы кодировать его (как предложено @edswafford). < /p>
Любые мысли о том, как я могу подходить к этому вопросу? @mxmissile В комментариях мне удалось успешно извлечь информацию, которая мне нужна: < /p>

Преобразование PDF в высококачественный png < /p>
< /li>
Извлечение текста с использованием ocr. Код: < /p>

Код: Выделить всё

using ImageMagick;
using Tesseract;

MagickReadSettings settings = new MagickReadSettings
{
Density = new Density(300, 300)
};

using (MagickImageCollection images = new MagickImageCollection())
{
images.Read(inputUrl, settings);
var image = images[0];
image.Quality = 100;
image.Resize(new MagickGeometry(1920, 1080));
image.Format = MagickFormat.Png;
image.Write(outputUrl);
}

string path = @".\Tessdata";

using (var engine = new TesseractEngine(path,"eng",EngineMode.Default))
{
using (var imageFromMagick = Pix.LoadFromFile(outputUrl))
{
using (var page = engine.Process(imageFromMagick))
{
string text = page.GetText();
}
}

}
Для обученных данных я загрузил только «eng.traineddata» из пакета Git-Hub после установки Tesseract в качестве Ocr.>

Подробнее здесь: https://stackoverflow.com/questions/796 ... t-from-pdf
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Извлечение текста из PDF на арабском языке и получение текста задом наперед
    Anonymous » » в форуме Python
    0 Ответы
    16 Просмотры
    Последнее сообщение Anonymous
  • Извлечение текста из PDF [закрыто]
    Anonymous » » в форуме C#
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • Извлечение текста из PDF [закрыто]
    Anonymous » » в форуме C#
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • Извлечение текста из PDF-файлов с помощью Python без комментариев
    Anonymous » » в форуме Python
    0 Ответы
    19 Просмотры
    Последнее сообщение Anonymous
  • Извлечение текста из PDF-файлов со встроенными шрифтами
    Anonymous » » в форуме C#
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous

Вернуться в «C#»