Полный документ Elasticsearch или постраничное индексирование текста

Полный документ Elasticsearch или постраничное индексирование текста ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Полный документ Elasticsearch или постраничное индексирование текста

Цитата

Сообщение Anonymous » 24 дек 2024, 16:39

Я создаю веб-приложение на .Net и PostgreSql.
Одним из требований является загрузка большого количества документов, например 200, которые могут быть в нескольких форматах, таких как pdf, doc, rtf, odt.
В настоящее время я храню их в Elasticsearch.
Поэтому, когда документ загружается Я использую Toxy nuget пакет для извлечения всего текста документа и его индексации в Elasticsearch.
Файлы могут иметь размер не более 50 МБ, а количество документов может составлять около 100-200 страниц.
В настоящее время это работает хорошо, но мне нужно в результате вернуть также место/страницу, на которой было найдено совпадение с поиском.
Любые предложения или идеи, что бы это могло быть хороший подход сделать это?
И какова наилучшая практика: полнотекстовое индексирование или частичное/постраничное индексирование документов в ElasticSearch.

Подробнее здесь: https://stackoverflow.com/questions/792 ... t-indexing

1735047558

Anonymous

Я создаю веб-приложение на .Net и PostgreSql.
Одним из требований является загрузка большого количества документов, например 200, которые могут быть в нескольких форматах, таких как pdf, doc, rtf, odt.
В настоящее время я храню их в Elasticsearch.
Поэтому, когда документ загружается Я использую Toxy nuget пакет для извлечения всего текста документа и его индексации в Elasticsearch.
Файлы могут иметь размер не более 50 МБ, а количество документов может составлять около 100-200 страниц.
В настоящее время это работает хорошо, но мне нужно в результате вернуть также место/страницу, на которой было найдено совпадение с поиском.
Любые предложения или идеи, что бы это могло быть хороший подход сделать это?
И какова наилучшая практика: полнотекстовое индексирование или частичное/постраничное индексирование документов в ElasticSearch. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79297292/elasticsearch-full-document-vs-page-by-page-text-indexing[/url]