Мне нужно обработать тонну (тысячи, возможно, более 100 тысяч) тезисов (текст, содержащий более 1000 слов), и я пытаюсь выполнить массовое извлечение ключевых слов из каждого тезиса. Тезисы хранятся в базе данных вместе с множеством других данных об авторе, которые мне также нужны. В настоящее время я запрашиваю базу данных и составляю файл рассола из всех рефератов в виде списка словарей. Извлечение ключевых слов происходит в режиме реального времени, то есть пользователь создает список ключевых слов/фраз, а затем запускает поиск ключевых слов в файле рассола. Я добился наилучшей производительности при использовании этого метода вместо оперативного запроса базы данных. Тем не менее, этот живой процесс занимает много времени, в зависимости от минуты или двух. Кроме того, все это делается на моем личном рабочем компьютере, поэтому я предполагаю, что на производственных серверах все ускорится. Также для извлечения я использую пакет Flashtext. Кроме того, НЕ используйте панд, просто старый словарь и списки. Кроме того, в качестве базы данных используется MS sql.
Мой вопрос... есть ли способ ускорить это или это просто особенность текстового поиска, медленный?
Подробнее здесь: https://stackoverflow.com/questions/790 ... rd-extract
Самый эффективный способ извлечения ключевых слов ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение