Эффективный текстовый поиск по большому списку терминов: Python, PostgreSQL и Elasticsearch

Эффективный текстовый поиск по большому списку терминов: Python, PostgreSQL и Elasticsearch ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Эффективный текстовый поиск по большому списку терминов: Python, PostgreSQL и Elasticsearch

Цитата

Сообщение Anonymous » 05 янв 2024, 15:54

У меня есть список, содержащий термины длиной от 1 до 10 слов и содержащий примерно 500 000 записей. Моя цель — найти эти термины в длинном тексте (преобразованном из PDF-файла, обычно длиной от 1,5 до 2 страниц). Мне нужно выполнить поиск не только по точным совпадениям, но и с использованием нечетких (например, термин «Лионель Месси» должен соответствовать «Лионель Меси» в тексте) и близких вариантов (например, термин «Лионель Месси» должен соответствовать «Лионель Месси»). Ж. Месси» в тексте).

Я стремлюсь решить эту проблему практически в реальном времени (1–2 секунды). Я пробовал использовать древовидные структуры данных и распараллеливание, но особенно когда в игру вступает нечеткий аспект, большой размер списка и длина PDF-файла приводят к длительному времени обработки (около 30 секунд).

Как мне подойти к этой проблеме?
[*]Могу ли я справиться с этим на лету с помощью библиотек Python (с использованием распараллеливания, древовидных структур и т. д.)? [*]Есть ли в PostgreSQL функции, поддерживающие такой поиск? [*]Следует ли мне использовать такую платформу, как Elasticsearch?»

1704459291

Anonymous

Я стремлюсь решить эту проблему практически в реальном времени (1–2 секунды). Я пробовал использовать древовидные структуры данных и распараллеливание, но особенно когда в игру вступает нечеткий аспект, большой размер списка и длина PDF-файла приводят к длительному времени обработки (около 30 секунд).

Как мне подойти к этой проблеме?
[*]Могу ли я справиться с этим на лету с помощью библиотек Python (с использованием распараллеливания, древовидных структур и т. д.)? [*]Есть ли в PostgreSQL функции, поддерживающие такой поиск? [*]Следует ли мне использовать такую платформу, как Elasticsearch?»

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Предложения автозаполнения для доступных ключей сегментов агрегации терминов в elasticsearch

Последнее сообщение Anonymous « 19 апр 2024, 09:07
Добавлено в форуме Elasticsearch aggregation

Anonymous » 19 апр 2024, 09:07 » в форуме Elasticsearch aggregation

В пользовательском интерфейсе мне нужно отобразить предложения автозаполнения, которые дают мне термины, содержащие искомый термин. например если я выполняю поиск по, я могу получить предложения как Перу, Перри, Каспер, Нейпервилл, Куперстаун и т....

0 Ответы

1039 Просмотры

Последнее сообщение Anonymous
19 апр 2024, 09:07
Агрегации Elasticsearch: попытка использовать сортировку по алфавиту в агрегации терминов

Последнее сообщение Anonymous « 05 дек 2024, 03:08
Добавлено в форуме Elasticsearch aggregation

Anonymous » 05 дек 2024, 03:08 » в форуме Elasticsearch aggregation

Сейчас я использую Elasticsearch 8.15. Я немного запутался, пытаясь добиться сортировки строк по внешнему и внутреннему сегменту (отсортировано по возрастанию или убыванию в алфавитном порядке). Мой индекс опасность выглядит примерно так:
{
hazards...

0 Ответы

979 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 03:08
Ускоряет ли добавление индекса к большому фрейму данных поиск?

Последнее сообщение Anonymous « 30 май 2024, 08:49
Добавлено в форуме Python

Anonymous » 30 май 2024, 08:49 » в форуме Python

Я новичок в pandas и использую в своем коде фреймы данных pandas. Кадры данных довольно большие (содержат более 2 миллионов строк). Я не добавлял никаких индексов в фрейм данных. Одно из значений в каждой строке — это дата, связанная с этой строкой,...

0 Ответы

39 Просмотры

Последнее сообщение Anonymous
30 май 2024, 08:49
Scipy.integrate.tplquad дает неправильный результат для интеграла по большому объему

Последнее сообщение Anonymous « 10 мар 2024, 03:43
Добавлено в форуме Python

Anonymous » 10 мар 2024, 03:43 » в форуме Python

I'm trying to integrate a function of 3 variables f(x,y,z) over all space.

When I integrate over a small volume, I get roughly the right result. However, when I increase the volume of integration, python says that the integral is zero.

I'm fairly...

0 Ответы

67 Просмотры

Последнее сообщение Anonymous
10 мар 2024, 03:43
Введите подсказку для кортежа, длина которого равна известному большому числу.

Последнее сообщение Anonymous « 30 июл 2024, 15:17
Добавлено в форуме Python

Anonymous » 30 июл 2024, 15:17 » в форуме Python

В настоящее время я набираю подсказку функции, возвращающей кортеж, следующим образом:
FuncOutput = Tuple

Есть ли способ сделать это в сжатой форме, чтобы я мог указать длину, не печатая ее много раз?

Подробнее здесь:

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 15:17

Вернуться в «Python»