Эффективный текстовый поиск по большому списку терминов: Python, PostgreSQL и ElasticsearchPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Эффективный текстовый поиск по большому списку терминов: Python, PostgreSQL и Elasticsearch

Сообщение Anonymous »


У меня есть список, содержащий термины длиной от 1 до 10 слов и содержащий примерно 500 000 записей. Моя цель — найти эти термины в длинном тексте (преобразованном из PDF-файла, обычно длиной от 1,5 до 2 страниц). Мне нужно выполнить поиск не только по точным совпадениям, но и с использованием нечетких (например, термин «Лионель Месси» должен соответствовать «Лионель Меси» в тексте) и близких вариантов (например, термин «Лионель Месси» должен соответствовать «Лионель Месси»). Ж. Месси» в тексте).

Я стремлюсь решить эту проблему практически в реальном времени (1–2 секунды). Я пробовал использовать древовидные структуры данных и распараллеливание, но особенно когда в игру вступает нечеткий аспект, большой размер списка и длина PDF-файла приводят к длительному времени обработки (около 30 секунд).

Как мне подойти к этой проблеме?
[*]Могу ли я справиться с этим на лету с помощью библиотек Python (с использованием распараллеливания, древовидных структур и т. д.)? [*]Есть ли в PostgreSQL функции, поддерживающие такой поиск? [*]Следует ли мне использовать такую ​​платформу, как Elasticsearch?»
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»