У меня есть проект, который использует Apache Tika 2.6.0 и хочет обновиться до 3.0.0 для улучшения производительности и уйти от tika-parsers-standard-package , которая имеет версию, которая имеет версию Уязвимости. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table < /p>
text
здесь < /p>
Почему
не < / p>
· очень важная точка < /p>
· Еще одна важная точка < /p>
· Никто не заботится об этой точке < /p >
3.0.0 Результат Parse
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла. Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml
word/settings.xml
sword/numbering.xml
Word/styles.xml
word/websettings.xml
word/fonttable.xml
docprops/ core.xml
docprops/app.xml
реализация
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий. < /p>
String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = contentHandler.toString();
inputStream.close();
}
< /code>
Я пробовал другие параметры для анализа, таких как '' new tika (). ParsetoString (inputStream, new Metadata ()); '' ', но, как уже упоминалось, я получаю Тот же результат. < /p>
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным путем? Любая справка/советы оценены.
пакеты и используемые версии
tika-core : 3.0.0
tika-parsers-standard-package : 3.0.0
Подробнее здесь: https://stackoverflow.com/questions/793 ... ument-info
Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах ⇐ JAVA
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах
Anonymous » » в форуме JAVA - 0 Ответы
- 7 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Apache Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах
Anonymous » » в форуме JAVA - 0 Ответы
- 7 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Apache Tika — анализ и извлечение только метаданных без чтения содержимого
Anonymous » » в форуме JAVA - 0 Ответы
- 8 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Почему Apache tika с файлом get .mp4 отвечает типом контента «видео/быстрое время»?
Anonymous » » в форуме JAVA - 0 Ответы
- 7 Просмотры
-
Последнее сообщение Anonymous
-