Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении?JAVA

Программисты JAVA общаются здесь
Ответить
Anonymous
 Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении?

Сообщение Anonymous »

Я использую tika для анализа документа. Я определил собственный анализатор изображений, использующий ocr, поэтому изображение будет анализироваться с помощью ocr.
Когда я использую tika для анализа Microsoft Word (doc/docx), я обнаружил, что встроенное изображение поместите в конец документа.
Я прочитал исходный код в AbstractOOXMLExtractor и обнаружил, что он сначала анализирует xhtml, а затем внедряет файлы, поэтому он всегда будет помещен в конце.

Код: Выделить всё

public void getXHTML(ContentHandler handler, Metadata metadata, ParseContext context)
throws SAXException, XmlException, IOException, TikaException {
XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
xhtml.startDocument();

// first parse xhtml
buildXHTML(xhtml);

// then the embedded files
// Now do any embedded parts
handleEmbeddedParts(xhtml, metadata, getEmbeddedPartMetadataMap());

// thumbnail
handleThumbnail(xhtml, metadata);

xhtml.endDocument();
}
И я обнаружил, что нет возможности настроить его.
Я настроил ParsingEmbeddedDocumentExtractor、

Код: Выделить всё

ParsingEmbeddedDocumentExtractorFactory、ParsingEmbeddedDocumentExtractor
, чтобы записать проанализированное встроенное изображение в ParseContext (а не в проанализированный результат)
Затем я проанализировал документ как XML, замените тег img с проанализированным встроенным файлом, полученным из ParseContext.
Таким образом, я могу проанализировать изображение в msword в правильном положении.
Интересно есть ли лучший способ выполнить эту работу?
И почему tika анализирует встроенные файлы в конце документа?
Любая проблема с их анализом, где они появились?

Подробнее здесь: https://stackoverflow.com/questions/787 ... t-position
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «JAVA»