Строка нечеткого совпадения с 1 миллионом строк

Строка нечеткого совпадения с 1 миллионом строк ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Строка нечеткого совпадения с 1 миллионом строк

Цитата

Сообщение Гость » 20 сен 2023, 16:47

У меня есть база данных с 1 миллионом строк, и на основе данных пользователя мне нужно найти для него наиболее релевантные совпадения.

Раньше код писался с использованием библиотеки fuzzywuzzy. Соотношение между двумя строками было рассчитано, чтобы показать, насколько они похожи.

Проблема в том, что нам пришлось запускать функцию отношения для каждой строки из базы данных, а это означало 1 миллион вызовов функций, а производительность была очень плохой. Мы никогда не думали, что получим столько данных.

Я ищу лучший алгоритм или решение для обработки поиска в этом случае. Я наткнулся на что-то под названием TF-IDF (частота документа, обратная частоте терминов). Это было описано как решение для «нечеткого сопоставления в масштабе», намного более быстрое.

К сожалению, я не смог вникнуть в это и полностью понять, как это работает, и чем больше я об этом читаю, тем больше думаю, что это не то, что мне нужно, поскольку все примеры, которые я видел пытаются найти похожие совпадения между двумя списками, а не между одной строкой и одним списком.

Значит, я на неправильном пути? И если да, не могли бы вы дать мне несколько идей о том, как мне справиться с этим сценарием? К сожалению, полнотекстовый поиск работает только с точными совпадениями, поэтому в нашем случае мы определенно хотим использовать нечеткий поиск.

И если вы собираетесь предложить идею использования отдельной поисковой системы, мы не хотим добавлять новый инструмент в нашу инфраструктуру только ради этого.

1695217637

Гость


У меня есть база данных с 1 миллионом строк, и на основе данных пользователя мне нужно найти для него наиболее релевантные совпадения.
 
Раньше код писался с использованием библиотеки fuzzywuzzy. Соотношение между двумя строками было рассчитано, чтобы показать, насколько они похожи.
 
Проблема в том, что нам пришлось запускать функцию отношения для каждой строки из базы данных, а это означало 1 миллион вызовов функций, а производительность была очень плохой. Мы никогда не думали, что получим столько данных.
 
Я ищу лучший алгоритм или решение для обработки поиска в этом случае. Я наткнулся на что-то под названием TF-IDF (частота документа, обратная частоте терминов). Это было описано как решение для «нечеткого сопоставления в масштабе», намного более быстрое.
 
К сожалению, я не смог вникнуть в это и полностью понять, как это работает, и чем больше я об этом читаю, тем больше думаю, что это не то, что мне нужно, поскольку все примеры, которые я видел пытаются найти похожие совпадения между двумя списками, а не между одной строкой и одним списком.
 
Значит, я на неправильном пути? И если да, не могли бы вы дать мне несколько идей о том, как мне справиться с этим сценарием? К сожалению, полнотекстовый поиск работает только с точными совпадениями, поэтому в нашем случае мы определенно хотим использовать нечеткий поиск.
 
И если вы собираетесь предложить идею использования отдельной поисковой системы, мы не хотим добавлять новый инструмент в нашу инфраструктуру только ради этого.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Удалить «почти повторяющиеся» строки строки на основе нечеткого сопоставления с большим количеством строк (> 50 000)

Последнее сообщение Гость « 15 мар 2024, 09:42
Добавлено в форуме Python

Гость » 15 мар 2024, 09:42 » в форуме Python

У меня есть 50 000 слов типа:

добавить
чтобы добавить
курица
курица
есть курицу
чтобы поесть
...

И я хочу удалить строку, которая имеет большое нечеткое сходство с другими строками.
Тогда вывод должен быть таким:

добавить
чтобы...

0 Ответы

32 Просмотры

Последнее сообщение Гость
15 мар 2024, 09:42
Многопроцессорность Python, как избежать создания кортежа с миллионом объектов

Последнее сообщение Anonymous « 30 июл 2024, 02:24
Добавлено в форуме Python

Anonymous » 30 июл 2024, 02:24 » в форуме Python

Новичок в многопроцессорной обработке Python.
У меня есть задача, которая включает в себя обращение к веб-сервису несколько миллионов раз и сохранение ответа в файле (отдельный файл для каждого запроса).
У меня есть высокоуровневая работа. код, но...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
30 июл 2024, 02:24
Быстрое перебор структуры данных с 51 миллионом простых чисел

Последнее сообщение Anonymous « 22 сен 2024, 13:21
Добавлено в форуме JAVA

Anonymous » 22 сен 2024, 13:21 » в форуме JAVA

Какая структура данных (в Java) лучше всего подходит для загрузки 51 миллиона простых чисел и последующего их перебора?

Мне нужно знать, например, простые числа между 1000000000 и этим же числом минус 100000.

Подробнее здесь:

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
22 сен 2024, 13:21
Pycharm Jupyter Notebook Markdown Отображение нечеткого шрифта

Последнее сообщение Anonymous « 18 ноя 2024, 11:04
Добавлено в форуме Python

Anonymous » 18 ноя 2024, 11:04 » в форуме Python

Я столкнулся с проблемой при попытке использовать Pycharm для редактирования файла Jupyter Notebook. Я обнаружил, что предварительный просмотр раздела уценки довольно ужасен. Шрифт действительно головокружительный по сравнению с разделом кода. Кроме...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
18 ноя 2024, 11:04
Каковы наилучшие способы реализации нечеткого поиска в приложении FastAPI с PostgreSQL? [закрыто]

Последнее сообщение Anonymous « 07 янв 2025, 14:31
Добавлено в форуме Python

Anonymous » 07 янв 2025, 14:31 » в форуме Python

У меня есть таблица с миллионами строк, содержащих названия компаний, и я хочу выполнить нечеткий поиск по этим данным (т. е. найти похожие совпадения для заданной строки). Каковы наилучшие методы реализации этого в производственной среде?
При...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
07 янв 2025, 14:31

Вернуться в «Python»