Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении?JAVA

Программисты JAVA общаются здесь
Ответить Пред. темаСлед. тема
Anonymous
 Может ли Apache Tika проанализировать встроенное изображение в word docx/doc в правильном положении?

Сообщение Anonymous »

Я использую tika для анализа документа. Я определил собственный анализатор изображений, использующий ocr, поэтому изображение будет анализироваться с помощью ocr.
Когда я использую tika для анализа Microsoft Word (doc/docx), я обнаружил, что встроенное изображение поместите в конец документа.
Я прочитал исходный код в AbstractOOXMLExtractor и обнаружил, что он сначала анализирует xhtml, а затем внедряет файлы, поэтому он всегда будет помещен в конце.

Код: Выделить всё

public void getXHTML(ContentHandler handler, Metadata metadata, ParseContext context)
throws SAXException, XmlException, IOException, TikaException {
XHTMLContentHandler xhtml = new XHTMLContentHandler(handler, metadata);
xhtml.startDocument();

// first parse xhtml
buildXHTML(xhtml);

// then the embedded files
// Now do any embedded parts
handleEmbeddedParts(xhtml, metadata, getEmbeddedPartMetadataMap());

// thumbnail
handleThumbnail(xhtml, metadata);

xhtml.endDocument();
}
И я обнаружил, что нет возможности настроить его.
Я настроил ParsingEmbeddedDocumentExtractor、

Код: Выделить всё

ParsingEmbeddedDocumentExtractorFactory、ParsingEmbeddedDocumentExtractor
, чтобы записать проанализированное встроенное изображение в ParseContext (а не в проанализированный результат)
Затем я проанализировал документ как XML, замените тег img с проанализированным встроенным файлом, полученным из ParseContext.
Таким образом, я могу проанализировать изображение в msword в правильном положении.
Интересно есть ли лучший способ выполнить эту работу?
И почему tika анализирует встроенные файлы в конце документа?
Любая проблема с их анализом, где они появились?

Подробнее здесь: https://stackoverflow.com/questions/787 ... t-position
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Bootstrap Toolp в неправильном положении при начальном падении, затем в правильном положении
    Anonymous » » в форуме Html
    0 Ответы
    18 Просмотры
    Последнее сообщение Anonymous
  • Bootstrap Toolp в неправильном положении при начальном падении, затем в правильном положении
    Anonymous » » в форуме CSS
    0 Ответы
    17 Просмотры
    Последнее сообщение Anonymous
  • Python и MS Word: преобразовать .doc в .docx?
    Anonymous » » в форуме Python
    0 Ответы
    23 Просмотры
    Последнее сообщение Anonymous
  • Преобразование файла Word (.docx и doc) в .pdf с использованием С# не работает
    Anonymous » » в форуме C#
    0 Ответы
    32 Просмотры
    Последнее сообщение Anonymous
  • Python и MS Word: преобразовать .doc в .docx?
    Anonymous » » в форуме Python
    0 Ответы
    12 Просмотры
    Последнее сообщение Anonymous

Вернуться в «JAVA»