У меня есть проект, который использует Apache Tika 2.6.0 и хочет обновиться до 3.0.0 для улучшения производительности и уйти от tika-parsers-standard-package , которая имеет версию, которая имеет версию Уязвимости. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table < /p>
text
здесь < /p>
Почему
не < / p>
· очень важная точка < /p>
· Еще одна важная точка < /p>
· Никто не заботится об этой точке < /p >
3.0.0 Результат Parse
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла. Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml
word/settings.xml
sword/numbering.xml
Word/styles.xml
word/websettings.xml
word/fonttable.xml
docprops/ core.xml
docprops/app.xml
реализация
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий. < /p>
String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = contentHandler.toString();
inputStream.close();
}
< /code>
Я пробовал другие параметры для анализа, таких как '' new tika (). ParsetoString (inputStream, new Metadata ()); '' ', но, как уже упоминалось, я получаю Тот же результат. < /p>
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным путем? Любая справка/советы оценены.
пакеты и используемые версии
tika-core : 3.0.0
tika-parsers-standard-package : 3.0.0
Подробнее здесь: https://stackoverflow.com/questions/793 ... ument-info
Apach Tika Обновление с 2,6,0 до 3.0.0 Извлечение контента включает информацию о документах ⇐ Apache
1738224302
Anonymous
У меня есть проект, который использует Apache Tika 2.6.0 и хочет обновиться до 3.0.0 для улучшения производительности и уйти от [b] tika-parsers-standard-package [/b], которая имеет версию, которая имеет версию Уязвимости. Тем не менее, фактическое извлечение контента ведет себя по -разному между 3,0,0 и 2,6,0 и включает информацию о типе документа. Я пробовал различные подходы к контенту документов, но каждый путь, который я пробовал, дает тот же результат. Для контекста я тестирую с очень простым документом Word. не имеет смысла.
simple
table < /p>
text
здесь < /p>
Почему
не < / p>
· очень важная точка < /p>
· Еще одна важная точка < /p>
· Никто не заботится об этой точке < /p >
3.0.0 Результат Parse
ncontent_types! />word/document.xml
Это документ Word с некоторым бессмысленным текстом, который не имеет смысла. Простой текст таблицы здесь, почему не очень важный момент, другой важный момент, никто не заботится об этом. word/theme/theme1.xml
word/settings.xml
sword/numbering.xml
Word/styles.xml
word/websettings.xml
word/fonttable.xml
docprops/ core.xml
docprops/app.xml
реализация
Вот код, который я использую для Запустите это, что не было изменено после перемещения версий. < /p>
String content;
try
{
parser.parse(inputStream, bodyContentHandler, new Metadata(), new ParseContext());
content = contentHandler.toString();
inputStream.close();
}
< /code>
Я пробовал другие параметры для анализа, таких как '' new tika (). ParsetoString (inputStream, new Metadata ()); '' ', но, как уже упоминалось, я получаю Тот же результат. < /p>
имеет что -то изменившее между вышеупомянутыми версиями, или это известная вещь с обходным путем? Любая справка/советы оценены.
пакеты и используемые версии
[b] tika-core [/b]: 3.0.0
[b] tika-parsers-standard-package [/b]: 3.0.0
Подробнее здесь: [url]https://stackoverflow.com/questions/79399183/apach-tika-upgrade-from-2-6-0-to-3-0-0-content-extraction-includes-document-info[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия