Тика возвращает искаженный текст из PDF-файла

Тика возвращает искаженный текст из PDF-файла ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Тика возвращает искаженный текст из PDF-файла

Цитата

Сообщение Anonymous » 27 янв 2026, 21:15

Я преобразую PDF-файлы в TXT. Большинство PDF-файлов работают нормально, но один из них возвращает только искаженный текст, например:

Код: Выделить всё

� . LEZI E TVSZIR XVEGO VIGSVH SJ PIEHMRK ERH QIR�
XSVMRK XIEQW SJ WM\ QIQFIVW [MXL ZEV]MRK TVSǻGMIRG] PIZIPW� 2] I\TIVMIRGI MR STXMQM^MRK [IF�FEWIH TVSHYGXW

Я использую следующий код:

Код: Выделить всё

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
parser.parse(fileData, handler, metadata, new ParseContext());

В чем может быть причина этого и как это исправить?
Я могу без проблем открыть этот PDF-файл с помощью внешнего средства просмотра.

Подробнее здесь: https://stackoverflow.com/questions/781 ... m-pdf-file

1769537715

Anonymous

Я преобразую PDF-файлы в TXT. Большинство PDF-файлов работают нормально, но один из них возвращает только искаженный текст, например:
[code]� . LEZI E TVSZIR XVEGO VIGSVH SJ PIEHMRK ERH QIR�
XSVMRK XIEQW SJ WM\ QIQFIVW [MXL ZEV]MRK TVSǻGMIRG] PIZIPW� 2] I\TIVMIRGI MR STXMQM^MRK [IF�FEWIH TVSHYGXW
[/code]
Я использую следующий код:
[code]Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
parser.parse(fileData, handler, metadata, new ParseContext());
[/code]
В чем может быть причина этого и как это исправить?
Я могу без проблем открыть этот PDF-файл с помощью внешнего средства просмотра. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78156107/tika-returns-garbled-text-from-pdf-file[/url]