, показанные символы
, я пытался установить фигуры, но ни один из использованных инструментов был способен. /> , к сожалению, я не могу поделиться оригинальным PDF из -за конфиденциальности, но я обнаружил, что они использовали «Adobe illutstrator 28.0 (macintosh), чтобы кодировать его (как рекомендовано @edswafford)
Любые мысли, как я могу подходить к этому вопросу? /> Обновление < /strong> < /p>
Так что, как предложено @mxmissile в комментариях, мне удалось успешно извлечь информацию, которая мне нужна: < /p>
1.- Преобразование PDF в высококачественный png < /p>
22 Код: < /p>
Код: Выделить всё
using ImageMagick;
using Tesseract;
MagickReadSettings settings = new MagickReadSettings
{
Density = new Density(300, 300)
};
using (MagickImageCollection images = new MagickImageCollection())
{
images.Read(inputUrl, settings);
var image = images[0];
image.Quality = 100;
image.Resize(new MagickGeometry(1920, 1080));
image.Format = MagickFormat.Png;
image.Write(outputUrl);
}
string path = @".\Tessdata";
using (var engine = new TesseractEngine(path,"eng",EngineMode.Default))
{
using (var imageFromMagick = Pix.LoadFromFile(outputUrl))
{
using (var page = engine.Process(imageFromMagick))
{
string text = page.GetText();
}
}
}
Все еще было бы неплохо продолжать искать более простые методы.>
Подробнее здесь: https://stackoverflow.com/questions/796 ... t-from-pdf