Извлечение текста из PDF [закрыто]

Извлечение текста из PDF [закрыто] ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Цитата

Сообщение Anonymous » 17 июн 2025, 12:55

Я пробовал довольно много пакетов (уже пробовал PDFSharp, IronPDF, pigpdf, aspose, itext), чтобы помочь мне извлечь текст из файла PDF, но я продолжаю получать такого рода странные символы:
, показанные символы
, я пытался установить фигурные формы, но ни один из использованных инструментов был способен. /> К сожалению, я не могу поделиться исходным PDF из -за конфиденциальности, но я обнаружил, что они использовали «Adobe illutstrator 28.0 (macintosh), чтобы кодировать его (как предложено @edswafford). < /p>
Любые мысли о том, как я могу подходить к этому вопросу? @mxmissile В комментариях мне удалось успешно извлечь информацию, которая мне нужна: < /p>

Преобразование PDF в высококачественный png < /p>
< /li>
Извлечение текста с использованием ocr. Код: < /p>

Код: Выделить всё

using ImageMagick;
using Tesseract;

MagickReadSettings settings = new MagickReadSettings
{
Density = new Density(300, 300)
};

using (MagickImageCollection images = new MagickImageCollection())
{
images.Read(inputUrl, settings);
var image = images[0];
image.Quality = 100;
image.Resize(new MagickGeometry(1920, 1080));
image.Format = MagickFormat.Png;
image.Write(outputUrl);
}

string path = @".\Tessdata";

using (var engine = new TesseractEngine(path,"eng",EngineMode.Default))
{
using (var imageFromMagick = Pix.LoadFromFile(outputUrl))
{
using (var page = engine.Process(imageFromMagick))
{
string text = page.GetText();
}
}

}

Для обученных данных я загрузил только «eng.traineddata» из пакета Git-Hub после установки Tesseract в качестве Ocr.>

Подробнее здесь: https://stackoverflow.com/questions/796 ... t-from-pdf

1750154116

Anonymous

 Я пробовал довольно много пакетов (уже пробовал PDFSharp, IronPDF, pigpdf, aspose, itext), чтобы помочь мне извлечь текст из файла PDF, но я продолжаю получать такого рода странные символы: 
, показанные символы 
, я пытался установить фигурные формы, но ни один из использованных инструментов был способен. />  К сожалению, я не могу поделиться исходным PDF из -за конфиденциальности, но я обнаружил, что они использовали «Adobe illutstrator 28.0 (macintosh), чтобы кодировать его (как предложено @edswafford). < /p>
Любые мысли о том, как я могу подходить к этому вопросу? @mxmissile В комментариях мне удалось успешно извлечь информацию, которая мне нужна: < /p>

  Преобразование PDF в высококачественный png < /p>
< /li>
  Извлечение текста с использованием ocr. Код: < /p>
[code]using ImageMagick;
using Tesseract;

MagickReadSettings settings = new MagickReadSettings
{
Density = new Density(300, 300)
};

using (MagickImageCollection images = new MagickImageCollection())
{
images.Read(inputUrl, settings);
var image = images[0];
image.Quality = 100;
image.Resize(new MagickGeometry(1920, 1080));
image.Format = MagickFormat.Png;
image.Write(outputUrl);
}

string path = @".\Tessdata";

using (var engine = new TesseractEngine(path,"eng",EngineMode.Default))
{
using (var imageFromMagick = Pix.LoadFromFile(outputUrl))
{
using (var page = engine.Process(imageFromMagick))
{
string text = page.GetText();
}
}

}
[/code]
Для обученных данных я загрузил только «eng.traineddata» из пакета Git-Hub после установки Tesseract в качестве Ocr.> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79665327/extracting-text-from-pdf[/url]