Самый эффективный способ извлечения ключевых словPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Самый эффективный способ извлечения ключевых слов

Сообщение Anonymous »

Мне нужно обработать тонну (тысячи, возможно, более 100 тысяч) тезисов (текст, содержащий более 1000 слов), и я пытаюсь выполнить массовое извлечение ключевых слов из каждого тезиса. Тезисы хранятся в базе данных вместе с множеством других данных об авторе, которые мне также нужны. В настоящее время я запрашиваю базу данных и составляю файл рассола из всех рефератов в виде списка словарей. Извлечение ключевых слов происходит в режиме реального времени, то есть пользователь создает список ключевых слов/фраз, а затем запускает поиск ключевых слов в файле рассола. Я добился наилучшей производительности при использовании этого метода вместо оперативного запроса базы данных. Тем не менее, этот живой процесс занимает много времени, в зависимости от минуты или двух. Кроме того, все это делается на моем личном рабочем компьютере, поэтому я предполагаю, что на производственных серверах все ускорится. Также для извлечения я использую пакет Flashtext. Кроме того, НЕ используйте панд, просто старый словарь и списки. Кроме того, в качестве базы данных используется MS sql.
Мой вопрос... есть ли способ ускорить это или это просто особенность текстового поиска, медленный?

Подробнее здесь: https://stackoverflow.com/questions/790 ... rd-extract
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»