Запрос тела PDF-файла в ElasticSearch как вложенных полей вместе с другими сглаженными даннымиPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Запрос тела PDF-файла в ElasticSearch как вложенных полей вместе с другими сглаженными данными

Сообщение Anonymous »

Я использую библиотеки Python для эластичного поиска, но помощь в необработанном запросе/сопоставлении эластичного поиска также будет полезна.
Для каждого проекта может быть N файлов и некоторые дополнительные данные . Я хочу индексировать и искать все информационные поля проекта, а также индексировать файлы для них. У меня есть следующее сопоставление:

Код: Выделить всё

# documents.py

class ProjectDocument(Document):
project_name = fields.TextField(analyzer=text_analyzer)
files = fields.NestedField(properties={
'id': fields.IntegerField(),
'content': fields.NestedField(
properties={
'page': fields.IntegerField(),
'body': fields.TextField(analyzer=doc_analyzer)
}
)
})

file_names = fields.TextField(analyzer=text_analyzer)
mdt = fields.TextField(analyzer=text_analyzer)
Я хочу добиться следующего: для поискового запроса выполните multi_match для следующих полей имя_проекта, имена_файлов, mdt; и выполните match_phrase для files.content.body. Результирующая оценка/обращение должна представлять собой смесь обоих запросов с соответствующими выделениями.
Я вижу, что возвращаемые обращения к файлам зависят от того, на каком номере страницы была найдена совпавшая фраза, и есть выделение. фрагмента фразы и подсчет количества совпадений в файле. Что-то вроде (только для демонстрации контекста, в котором будут результаты):

Код: Выделить всё

Page 1: ..... hello world ...
Page 2: ... the world is saying hello ... the hellos of the world ...
+ 234 more matches for 'hello world' in the file
Я относительно новичок в ElasticSearch и смог выполнить базовый индивидуальный поиск, но мне трудно работать с вложенными полями, где проект может иметь несколько PDF-файлов, а каждый PDF-файл может содержать несколько страниц, которые необходимо для индексации и запроса. Буду признателен за любую помощь в решении этой проблемы.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -flattened
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»