Запрос тела PDF-файла в ElasticSearch как вложенных полей вместе с другими сглаженными данными

Запрос тела PDF-файла в ElasticSearch как вложенных полей вместе с другими сглаженными данными ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Запрос тела PDF-файла в ElasticSearch как вложенных полей вместе с другими сглаженными данными

Цитата

Сообщение Anonymous » 05 окт 2024, 21:50

Я использую библиотеки Python для эластичного поиска, но помощь в необработанном запросе/сопоставлении эластичного поиска также будет полезна.
Для каждого проекта может быть N файлов и некоторые дополнительные данные . Я хочу индексировать и искать все информационные поля проекта, а также индексировать файлы для них. У меня есть следующее сопоставление:

Код: Выделить всё

# documents.py

class ProjectDocument(Document):
project_name = fields.TextField(analyzer=text_analyzer)
files = fields.NestedField(properties={
'id': fields.IntegerField(),
'content': fields.NestedField(
properties={
'page': fields.IntegerField(),
'body': fields.TextField(analyzer=doc_analyzer)
}
)
})

file_names = fields.TextField(analyzer=text_analyzer)
mdt = fields.TextField(analyzer=text_analyzer)

Я хочу добиться следующего: для поискового запроса выполните multi_match для следующих полей имя_проекта, имена_файлов, mdt; и выполните match_phrase для files.content.body. Результирующая оценка/обращение должна представлять собой смесь обоих запросов с соответствующими выделениями.
Я вижу, что возвращаемые обращения к файлам зависят от того, на каком номере страницы была найдена совпавшая фраза, и есть выделение. фрагмента фразы и подсчет количества совпадений в файле. Что-то вроде (только для демонстрации контекста, в котором будут результаты):

Код: Выделить всё

Page 1: ..... hello world ...
Page 2: ... the world is saying hello ... the hellos of the world ...
+ 234 more matches for 'hello world' in the file

Я относительно новичок в ElasticSearch и смог выполнить базовый индивидуальный поиск, но мне трудно работать с вложенными полями, где проект может иметь несколько PDF-файлов, а каждый PDF-файл может содержать несколько страниц, которые необходимо для индексации и запроса. Буду признателен за любую помощь в решении этой проблемы.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -flattened

1728154221

Anonymous

Я использую библиотеки Python для эластичного поиска, но помощь в необработанном запросе/сопоставлении эластичного поиска также будет полезна.
Для каждого проекта может быть N файлов и некоторые дополнительные данные . Я хочу индексировать и искать все информационные поля проекта, а также индексировать файлы для них. У меня есть следующее сопоставление:
[code]# documents.py

class ProjectDocument(Document):
project_name = fields.TextField(analyzer=text_analyzer)
files = fields.NestedField(properties={
'id': fields.IntegerField(),
'content': fields.NestedField(
properties={
'page': fields.IntegerField(),
'body': fields.TextField(analyzer=doc_analyzer)
}
)
})

file_names = fields.TextField(analyzer=text_analyzer)
mdt = fields.TextField(analyzer=text_analyzer)
[/code]
Я хочу добиться следующего: для поискового запроса выполните multi_match для следующих полей имя_проекта, имена_файлов, mdt; и выполните match_phrase для files.content.body. Результирующая оценка/обращение должна представлять собой смесь обоих запросов с соответствующими выделениями.
Я вижу, что возвращаемые обращения к файлам зависят от того, на каком номере страницы была найдена совпавшая фраза, и есть выделение. фрагмента фразы и подсчет количества совпадений в файле. Что-то вроде (только для демонстрации контекста, в котором будут результаты):
[code]Page 1: ..... hello world ...
Page 2: ... the world is saying hello ... the hellos of the world ...
+ 234 more matches for 'hello world' in the file
[/code]
Я относительно новичок в ElasticSearch и смог выполнить базовый индивидуальный поиск, но мне трудно работать с вложенными полями, где проект может иметь несколько PDF-файлов, а каждый PDF-файл может содержать несколько страниц, которые необходимо для индексации и запроса. Буду признателен за любую помощь в решении этой проблемы. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79057729/querying-a-pdf-body-in-elasticsearch-as-nested-fields-along-with-other-flattened[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Вложенные агрегаты Elasticsearch с данными Spring elasticsearch 5.2

Последнее сообщение Anonymous « 27 июн 2024, 12:57
Добавлено в форуме Elasticsearch aggregation

Anonymous » 27 июн 2024, 12:57 » в форуме Elasticsearch aggregation

Требуется помощь: выполните вложенную агрегацию с помощью Spring Data Elasticsearch 5.2.6 и Elasticsearch-rest-client 8.10
Я работаю над проектом, используя Elasticsearch с Spring Data Elasticsearch 5.2.6, и у меня возникают трудности для правильной...

0 Ответы

1196 Просмотры

Последнее сообщение Anonymous
27 июн 2024, 12:57
Лучший способ извлечения штрих-кодов вместе с другими деталями из изображения или файла PDF в Python

Последнее сообщение Anonymous « 04 дек 2024, 12:03
Добавлено в форуме Python

Anonymous » 04 дек 2024, 12:03 » в форуме Python

У меня есть задача, которая требует от меня извлечения сведений о заказе из PDF-файла или изображения в структурированном формате.
Мой подход заключался в том, чтобы найти область штрих-кода, а затем распознать текст над каждой из них. область...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 12:03
Лучший способ извлечения штрих-кодов вместе с другими деталями из изображения или файла PDF в Python

Последнее сообщение Anonymous « 04 дек 2024, 15:07
Добавлено в форуме Python

Anonymous » 04 дек 2024, 15:07 » в форуме Python

У меня есть задача, которая требует от меня извлечения сведений о заказе из PDF-файла или изображения в структурированном формате.
Мой подход заключался в том, чтобы найти область штрих-кода, а затем распознать текст над каждой из них. область...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
04 дек 2024, 15:07
Как нарисовать закругленный заполненный прямоугольник со сглаженными только углами с помощью GDI+?

Последнее сообщение Anonymous « 28 май 2024, 22:27
Добавлено в форуме C++

Anonymous » 28 май 2024, 22:27 » в форуме C++

Я пытаюсь нарисовать скругленный прямоугольник со сглаженными углами, однако весь прямоугольник подвергается сглаживанию, в результате чего края прямоугольника становятся размытыми. Я бы хотел, чтобы сглаживались только закругленные углы, чтобы...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
28 май 2024, 22:27
Как нарисовать закругленный заполненный прямоугольник со сглаженными только углами с помощью GDI+?

Последнее сообщение Anonymous « 29 май 2024, 11:17
Добавлено в форуме C++

Anonymous » 29 май 2024, 11:17 » в форуме C++

Я пытаюсь нарисовать скругленный прямоугольник со сглаженными углами, однако весь прямоугольник подвергается сглаживанию, в результате чего края прямоугольника становятся размытыми. Я бы хотел, чтобы сглаживались только закругленные углы, чтобы...

0 Ответы

29 Просмотры

Последнее сообщение Anonymous
29 май 2024, 11:17

Вернуться в «Python»