Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении? - Цифровое Кемерово

Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении? ⇐ JAVA

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении?

Цитата

Сообщение Anonymous » 25 июл 2024, 14:13

Я использую tika для анализа документа. Я определил собственный анализатор изображений, использующий ocr, поэтому изображение будет анализироваться с помощью ocr.
Когда я использую tika для анализа Microsoft Word (doc/docx), я обнаружил, что встроенное изображение поместите в конец документа.
Я прочитал исходный код в AbstractOOXMLExtractor и обнаружил, что он сначала анализирует xhtml, а затем внедряет файлы, поэтому он всегда будет помещен в конце.

Код: Выделить всё

public void getXHTML(ContentHandler handler, Metadata metadata, ParseContext context)
throws SAXException, XmlException, IOException, TikaException {
XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
xhtml.startDocument();

// first parse xhtml
buildXHTML(xhtml);

// then the embedded files
// Now do any embedded parts
handleEmbeddedParts(xhtml, metadata, getEmbeddedPartMetadataMap());

// thumbnail
handleThumbnail(xhtml, metadata);

xhtml.endDocument();
}

И я обнаружил, что нет возможности настроить его.
Я настроил ParsingEmbeddedDocumentExtractor、

Код: Выделить всё

ParsingEmbeddedDocumentExtractorFactory、ParsingEmbeddedDocumentExtractor

, чтобы записать проанализированное встроенное изображение в ParseContext (а не в проанализированный результат)
Затем я проанализировал документ как XML, замените тег img с проанализированным встроенным файлом, полученным из ParseContext.
Таким образом, я могу проанализировать изображение в msword в правильном положении.
Интересно есть ли лучший способ выполнить эту работу?
И почему tika анализирует встроенные файлы в конце документа?
Любая проблема с их анализом, где они появились?

Подробнее здесь: https://stackoverflow.com/questions/787 ... t-position

1721906025

Anonymous

Я использую tika для анализа документа. Я определил собственный анализатор изображений, использующий ocr, поэтому изображение будет анализироваться с помощью ocr.
Когда я использую tika для анализа Microsoft Word (doc/docx), я обнаружил, что встроенное изображение поместите в конец документа.
Я прочитал исходный код в AbstractOOXMLExtractor и обнаружил, что он сначала анализирует xhtml, а затем внедряет файлы, поэтому он всегда будет помещен в конце.
[code]public void getXHTML(ContentHandler handler, Metadata metadata, ParseContext context)
throws SAXException, XmlException, IOException, TikaException {
XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
xhtml.startDocument();

// first parse xhtml
buildXHTML(xhtml);

// then the embedded files
// Now do any embedded parts
handleEmbeddedParts(xhtml, metadata, getEmbeddedPartMetadataMap());

// thumbnail
handleThumbnail(xhtml, metadata);

xhtml.endDocument();
}
[/code]
И я обнаружил, что нет возможности настроить его.
Я настроил ParsingEmbeddedDocumentExtractor、[code]ParsingEmbeddedDocumentExtractorFactory、ParsingEmbeddedDocumentExtractor[/code], чтобы записать проанализированное встроенное изображение в ParseContext (а не в проанализированный результат)
Затем я проанализировал документ как XML, замените тег img с проанализированным встроенным файлом, полученным из ParseContext.
Таким образом, я могу проанализировать изображение в msword в правильном положении.
Интересно есть ли лучший способ выполнить эту работу?
И почему tika анализирует встроенные файлы в конце документа?
Любая проблема с их анализом, где они появились? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78792992/can-apache-tika-parse-embedded-picture-in-word-docx-doc-in-the-right-position[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «JAVA»

Programmiererforum