Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 на C#? [закрыто]C#

Место общения программистов C#
Ответить
Anonymous
 Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 на C#? [закрыто]

Сообщение Anonymous »

У меня есть PDF-файл, содержащий текст на гуджарати, английский язык, математические формулы и химические символы.
Когда я извлекаю текст с помощью iText7, символы гуджарати заменяются нечитаемой формой.
Я использовал программу C# с приведенным ниже кодом:

Код: Выделить всё

using (var pdfReader = new PdfReader(file.OpenReadStream()))
using (var pdfDoc = new iText.Kernel.Pdf.PdfDocument(pdfReader){
var sb = new StringBuilder();
for (int page = 1; page 

Подробнее здесь: [url]https://stackoverflow.com/questions/79795733/how-to-correctly-extract-gujarati-text-and-math-symbols-from-pdf-using-itext7-in[/url]
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «C#»