Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах

Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах ⇐ JAVA

1 сообщение • Страница 1 из 1

Anonymous

Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах

Цитата

Сообщение Anonymous » 30 янв 2025, 12:15

У меня есть проект, который использует Apache Tika 2.6.0 и хочу обновить до 3,0.0 для улучшения производительности. 
Обновление достаточно простое в том, что у меня не было изменить или рефакторировать любой код, и все работает как есть. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table 
text
здесь 
Почему
не 
· очень важная точка 
· Еще одна важная точка 
· Никто не заботится об этой точке 
3.0.0 Результат Parse
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла. Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml
word/settings.xml
sword/numbering.xml
Word/styles.xml
word/websettings.xml
word/fonttable.xml
docprops/ core.xml
docprops/app.xml
реализация
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий.

Код: Выделить всё

String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = bodyContentHandler.toString();
inputStream.close();
}

Я пробовал другие параметры для анализа, таких как new tika (). parsetoString (inputstream, new metadata ()); Но, как уже упоминалось, я получаю тот же результат . 
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным пути? Любая справка/советы оценены.
пакеты и используемые версии
tika-core : 3.0.0
tika-parsers-standard-package : 3.0.0

Подробнее здесь: https://stackoverflow.com/questions/793 ... ument-info

1738228515

Anonymous

 У меня есть проект, который использует Apache Tika 2.6.0 и хочу обновить до 3,0.0 для улучшения производительности. < /p>
Обновление достаточно простое в том, что у меня не было изменить или рефакторировать любой код, и все работает как есть. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table < /p>
text
здесь < /p>
Почему
не < / p>
· очень важная точка < /p>
· Еще одна важная точка < /p>
· Никто не заботится об этой точке < /p >
3.0.0 Результат Parse 
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла.               Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml 
word/settings.xml
sword/numbering.xml
Word/styles.xml 
word/websettings.xml
word/fonttable.xml
docprops/ core.xml 
docprops/app.xml
 реализация 
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий. < /p>
[code]String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = bodyContentHandler.toString();
inputStream.close();
}
[/code]
Я пробовал другие параметры для анализа, таких как new tika (). parsetoString (inputstream, new metadata ());  Но, как уже упоминалось, я получаю тот же результат . < /p>
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным пути? Любая справка/советы оценены. 
 пакеты и используемые версии 
[b] tika-core [/b]: 3.0.0 
[b] tika-parsers-standard-package [/b]: 3.0.0  

Подробнее здесь: [url]https://stackoverflow.com/questions/79399183/apach-tika-upgrade-from-2-6-0-to-3-0-0-content-extraction-includes-document-info[/url]