Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 в C#? [закрыто]C#

Место общения программистов C#
Ответить
Anonymous
 Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 в C#? [закрыто]

Сообщение Anonymous »

Мой PDF-файл содержит текст на гуджаратском языке, английский язык, математические формулы и химические символы. Эти символы Юникода извлекаются неправильно.
Когда я извлекаю текст с помощью iText7, символы гуджарати заменяются нечитаемым текстом.
Моя программа на C#:

Код: Выделить всё

using (var pdfReader = new PdfReader(file.OpenReadStream()))
using (var pdfDoc = new iText.Kernel.Pdf.PdfDocument(pdfReader){
var sb = new StringBuilder();
for (int page = 1; page 

Подробнее здесь: [url]https://stackoverflow.com/questions/79795733/how-do-i-correctly-extract-gujarati-text-and-math-symbols-from-pdf-using-itext7[/url]
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «C#»