Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах

Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах ⇐ Apache

1 сообщение • Страница 1 из 1

Anonymous

Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах

Сообщение Anonymous » 30 янв 2025, 11:05

У меня есть проект, который использует Apache Tika 2.6.0 и хочет обновиться до 3.0.0 для улучшения производительности и уйти от tika-parsers-standard-package , которая имеет версию, которая имеет версию Уязвимости. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table 
text
здесь 
Почему
не 
· очень важная точка 
· Еще одна важная точка 
· Никто не заботится об этой точке 
3.0.0 Результат Parse
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла. Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml
word/settings.xml
sword/numbering.xml
Word/styles.xml
word/websettings.xml
word/fonttable.xml
docprops/ core.xml
docprops/app.xml
реализация
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий. 
String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = contentHandler.toString();
inputStream.close();
}
< /code>
Я пробовал другие параметры для анализа, таких как '' new tika (). ParsetoString (inputStream, new Metadata ()); '' ', но, как уже упоминалось, я получаю Тот же результат. 
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным путем? Любая справка/советы оценены.
пакеты и используемые версии
tika-core : 3.0.0
tika-parsers-standard-package : 3.0.0

Подробнее здесь: https://stackoverflow.com/questions/793 ... ument-info

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Apache»