Обновление достаточно простое в том, что у меня не было изменить или рефакторировать любой код, и все работает как есть. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table < /p>
text
здесь < /p>
Почему
не < / p>
· очень важная точка < /p>
· Еще одна важная точка < /p>
· Никто не заботится об этой точке < /p >
3.0.0 Результат Parse
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла. Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml
word/settings.xml
sword/numbering.xml
Word/styles.xml
word/websettings.xml
word/fonttable.xml
docprops/ core.xml
docprops/app.xml
реализация
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий. < /p>
Код: Выделить всё
String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = bodyContentHandler.toString();
inputStream.close();
}
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным пути? Любая справка/советы оценены.
пакеты и используемые версии
tika-core : 3.0.0
tika-parsers-standard-package : 3.0.0
Подробнее здесь: https://stackoverflow.com/questions/793 ... ument-info