Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 в C#? [закрыто]

Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 в C#? [закрыто] ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Как правильно извлечь текст и математические символы гуджарати из PDF с помощью iText7 в C#? [закрыто]

Цитата

Сообщение Anonymous » 21 окт 2025, 16:38

Мой PDF-файл содержит текст на гуджаратском языке, английский язык, математические формулы и химические символы. Эти символы Юникода извлекаются неправильно.
Когда я извлекаю текст с помощью iText7, символы гуджарати заменяются нечитаемым текстом.
Моя программа на C#:

Код: Выделить всё

using (var pdfReader = new PdfReader(file.OpenReadStream()))
using (var pdfDoc = new iText.Kernel.Pdf.PdfDocument(pdfReader){
var sb = new StringBuilder();
for (int page = 1; page 

Подробнее здесь: [url]https://stackoverflow.com/questions/79795733/how-do-i-correctly-extract-gujarati-text-and-math-symbols-from-pdf-using-itext7[/url]

1761053898

Anonymous

Мой PDF-файл содержит текст на гуджаратском языке, английский язык, математические формулы и химические символы. Эти символы Юникода извлекаются неправильно.
Когда я извлекаю текст с помощью iText7, символы гуджарати заменяются нечитаемым текстом.
Моя программа на C#:
[code]using (var pdfReader = new PdfReader(file.OpenReadStream()))
using (var pdfDoc = new iText.Kernel.Pdf.PdfDocument(pdfReader){
var sb = new StringBuilder();
for (int page = 1; page 

Подробнее здесь: [url]https://stackoverflow.com/questions/79795733/how-do-i-correctly-extract-gujarati-text-and-math-symbols-from-pdf-using-itext7[/url]

Ответить

1 сообщение • Страница 1 из 1