Получение схемы из PDF-файлаC#

Место общения программистов C#
Ответить
Anonymous
 Получение схемы из PDF-файла

Сообщение Anonymous »

У меня есть программа, которая раньше использовала ChatGPT для сканирования документов и оповещения, когда страница содержит диаграмму, например таблицу или график. Поскольку ChatGPT перестал принимать изображения через API, я использую веб-сайт ChatGPT для ручной обработки этих страниц, что занимает довольно много времени и времени.
Я хочу повторно автоматизировать этот процесс. К сожалению, службы оптического распознавания символов, которые я пробовал, такие как Azure OCR, Amazon Reckognition и Google Cloud Vision OCR, не обладают такими же возможностями.
Я пытался использовать для этого следующий код:< /p>

Код: Выделить всё

using System;
using System.Collections.Generic;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;

namespace PdfImageDetectionTest
{
class Program
{
public static List GetPagesWithImages(string pdfPath)
{
List pagesWithImages = new List();

// Load the PDF document
using (PdfReader pdfReader = new PdfReader(pdfPath))
using (PdfDocument pdfDocument = new PdfDocument(pdfReader))
{
int totalPages = pdfDocument.GetNumberOfPages();

for (int i = 1; i  0)
{
Console.WriteLine("Pages with images: " + string.Join(", ", pagesWithImages));
}
else
{
Console.WriteLine("No pages contain images.");
}

// Keep console window open
Console.WriteLine("Press any key to exit...");
Console.ReadKey();
}
}

public class ImageDetectionListener : IEventListener
{
private bool foundImage = false;

public void EventOccurred(IEventData data, EventType type)
{
if (type == EventType.RENDER_IMAGE)
{
foundImage = true; // Image found!
}
}

public bool HasImage()
{
return foundImage;
}

public ICollection GetSupportedEvents()
{
// Only listen for image rendering events
return new HashSet { EventType.RENDER_IMAGE };
}
}
}
Но поскольку весь файл представляет собой отсканированный документ, он распознает все страницы как содержащие диаграммы, а не только те, которые нам нужны. Есть ли более простой способ сделать это или библиотека/пакет, которая действительно сможет делать то, что мы здесь хотим?

Подробнее здесь: https://stackoverflow.com/questions/791 ... a-pdf-file
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «C#»