Я читаю PDF-файл на арабском языке через библиотеку PDFBOX построчно. При проверке консоли отладки я вижу, что все строки в порядке, но когда содержимое всего списка просматривается в одной строке, кажется, что текст перемешивается, а не в порядке. Также библиотека считывает некоторые дополнительные символы из PDF-файла, которые не видны глазами и вызывают проблемы с точностью чтения PDF-файла. Как видно на изображении 2, когда мы просматриваем элементы на основе индекса, они кажутся читаемыми правильно, но при просмотре в виде одной строки они перетасовываются. Может ли кто-нибудь объяснить это ненормальное поведение? Будем очень признательны за любую помощь.
Изображение в формате PDF
[img]https://i. sstatic.net/TMUTEabJ.png[/img]
Консоль отладки
[img]https: //i.sstatic.net/AJrTQ6M8.png[/img]
Я пробовал использовать разные методы, например, пытаться удалить лишние символы, менять порядок строк, чтобы увидеть, зеркально ли отображен текст. но ничего не вышло.
public List extractPageText(int pageNumber, PDDocument document) {
List currentPageLines = new ArrayList();
PDFTextStripper stripper1 = null;
String[] pageLines = null;
try {
PDFTextStripperByArea stripper2 = new PDFTextStripperByArea();
Rectangle2D rect = new java.awt.geom.Rectangle2D.Float(10, 10, 580, 690);
stripper2.addRegion("region", rect);
stripper2.extractRegions(document.getPage(pageNumber));
String textForRegion = stripper2.getTextForRegion("region");
pageLines = textForRegion.split("\n");
} catch (IOException e) {
e.printStackTrace();
}
for (String currentPageline : pageLines) {
currentPageLines.add(currentPageline.trim());
}
return currentPageLines;
}
Подробнее здесь: https://stackoverflow.com/questions/791 ... ears-to-be
PDFBOX: почему текст на арабском языке, прочитанный из PDF, перемешивается, хотя в List<String> он выглядит в порядке пр ⇐ JAVA
Программисты JAVA общаются здесь
1729509022
Anonymous
Я читаю PDF-файл на арабском языке через библиотеку PDFBOX построчно. При проверке консоли отладки я вижу, что все строки в порядке, но когда содержимое всего списка просматривается в одной строке, кажется, что текст перемешивается, а не в порядке. Также библиотека считывает некоторые дополнительные символы из PDF-файла, которые не видны глазами и вызывают проблемы с точностью чтения PDF-файла. Как видно на изображении 2, когда мы просматриваем элементы на основе индекса, они кажутся читаемыми правильно, но при просмотре в виде одной строки они перетасовываются. Может ли кто-нибудь объяснить это ненормальное поведение? Будем очень признательны за любую помощь.
Изображение в формате PDF
[img]https://i. sstatic.net/TMUTEabJ.png[/img]
Консоль отладки
[img]https: //i.sstatic.net/AJrTQ6M8.png[/img]
Я пробовал использовать разные методы, например, пытаться удалить лишние символы, менять порядок строк, чтобы увидеть, зеркально ли отображен текст. но ничего не вышло.
public List extractPageText(int pageNumber, PDDocument document) {
List currentPageLines = new ArrayList();
PDFTextStripper stripper1 = null;
String[] pageLines = null;
try {
PDFTextStripperByArea stripper2 = new PDFTextStripperByArea();
Rectangle2D rect = new java.awt.geom.Rectangle2D.Float(10, 10, 580, 690);
stripper2.addRegion("region", rect);
stripper2.extractRegions(document.getPage(pageNumber));
String textForRegion = stripper2.getTextForRegion("region");
pageLines = textForRegion.split("\n");
} catch (IOException e) {
e.printStackTrace();
}
for (String currentPageline : pageLines) {
currentPageLines.add(currentPageline.trim());
}
return currentPageLines;
}
Подробнее здесь: [url]https://stackoverflow.com/questions/79109760/pdfbox-why-does-arabic-text-read-from-pdf-gets-shuffled-while-it-appears-to-be[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия