, показанные символы
, я пытался установить фигурные формы, но ни один из использованных инструментов был способен. /> К сожалению, я не могу поделиться исходным PDF из -за конфиденциальности, но я обнаружил, что они использовали «Adobe illutstrator 28.0 (macintosh), чтобы кодировать его (как предложено @edswafford). < /p>
Любые мысли о том, как я могу подходить к этому вопросу? @mxmissile В комментариях мне удалось успешно извлечь информацию, которая мне нужна: < /p>
Преобразование PDF в высококачественный png < /p>
< /li>
Извлечение текста с использованием ocr. Код: < /p>
Код: Выделить всё
using ImageMagick;
using Tesseract;
MagickReadSettings settings = new MagickReadSettings
{
Density = new Density(300, 300)
};
using (MagickImageCollection images = new MagickImageCollection())
{
images.Read(inputUrl, settings);
var image = images[0];
image.Quality = 100;
image.Resize(new MagickGeometry(1920, 1080));
image.Format = MagickFormat.Png;
image.Write(outputUrl);
}
string path = @".\Tessdata";
using (var engine = new TesseractEngine(path,"eng",EngineMode.Default))
{
using (var imageFromMagick = Pix.LoadFromFile(outputUrl))
{
using (var page = engine.Process(imageFromMagick))
{
string text = page.GetText();
}
}
}
Подробнее здесь: https://stackoverflow.com/questions/796 ... t-from-pdf