Каков самый быстрый способ в Python, чтобы найти, соответствует ли строка любые термины в списке слов, фраз, логических

Каков самый быстрый способ в Python, чтобы найти, соответствует ли строка любые термины в списке слов, фраз, логических ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Каков самый быстрый способ в Python, чтобы найти, соответствует ли строка любые термины в списке слов, фраз, логических

Цитата

Сообщение Anonymous » 27 июн 2025, 15:34

Я пытаюсь найти быстрый способ в Python, чтобы проверить, можно ли сопоставить список терминов с строками в диапазоне от 50 до 50 000 символов. < /p>

Термин может быть: < /p>

Слово, например. 'Apple' < /li>
Фраза, например. 'Cherry Pie' < /li>
логическое и слов и фраз, например. 'Сладкий пирог и пикантный пирог и безе' < /li>
< /ul>

Соответствие - это то, где слово или фраза существует вокруг границ слов, так: < /p>

Код: Выделить всё

match(term='apple', string='An apple a day.') # True
match(term='berry pie', string='A delicious berry pie.') # True
match(term='berry pie', string='A delicious blueberry pie.') # False
< /code>

У меня в настоящее время около 40 терминов, большинство из них - простые слова. Количество терминов со временем увеличится, но я бы не ожидал, что они выйдут за пределы 400. />
Скорость-это наиболее важные критерии, и я хотел бы использовать существующий код тех, кто умнее меня, а не пытаться реализовать белую бумагу. :) < /p>

Пока самое быстрое решение, которое я придумал: < /p>

def data():
return [
"The apple is the pomaceous fruit of the apple tree, species Malus domestica in the rose family (Rosaceae).",
"This resulted in early armies adopting the style of hunter-foraging.",
"Beef pie fillings are popular in Australia. Chicken pie fillings are too."
]

def boolean_and(terms):
return '(%s)' % (''.join(['(?=.*\\b%s\\b)' % (term) for term in terms]))

def run():
words_and_phrases = ['apple', 'cherry pie']
booleans = [boolean_and(terms) for terms in [['sweet pie', 'savoury pie', 'meringue'], ['chicken pie', 'beef pie']]]
regex = re.compile(r'(?i)(\b(%s)\b|%s)' % ('|'.join(words_and_phrases), '|'.join(booleans)))
matched_data = list()
for d in data():
if regex.search(d):
matched_data.append(d)
< /code>

regex вводится как: < /p>

(?i)(\b(apple|cherry pie)\b|((?=.*\bsweet pie\b)(?=.*\bsavoury pie\b)(?=.*\bmeringue\b))|((?=.*\bchicken pie\b)(?=.*\bbeef pie\b)))

So all the terms are ORed together, case is ignored, the words/phrases are wrapped in \b for word boundaries, the boolean ANDs use lookaheads so that all the terms are matched, but they do not have to match in a particular order.

Timeit results:

print timeit.Timer('run()', 'from __main__ import run').timeit(number=10000)
1.41534304619
< /code>

Без ликаников (т.е. логический и логический) это действительно быстро, но как только они добавляют, скорость значительно замедляется. < /p>

У кого -нибудь есть идеи о том, как это можно улучшить? Есть ли способ оптимизировать Lookahead, или, может быть, совершенно другой подход? Я не думаю, что Stemming сработает, так как он имеет тенденцию быть немного жадным с тем, что соответствует.

Подробнее здесь: https://stackoverflow.com/questions/542 ... s-in-a-lis

1751027646

Anonymous

 Я пытаюсь найти быстрый способ в Python, чтобы проверить, можно ли сопоставить список терминов с строками в диапазоне от 50 до 50 000 символов. < /p>

Термин может быть: < /p>


 Слово, например. 'Apple' < /li>
 Фраза, например. 'Cherry Pie' < /li>
 логическое и слов и фраз, например. 'Сладкий пирог и пикантный пирог и безе' < /li>
< /ul>

Соответствие - это то, где слово или фраза существует вокруг границ слов, так: < /p>

[code]match(term='apple', string='An apple a day.') # True
match(term='berry pie', string='A delicious berry pie.') # True
match(term='berry pie', string='A delicious blueberry pie.') # False
< /code>

У меня в настоящее время около 40 терминов, большинство из них - простые слова. Количество терминов со временем увеличится, но я бы не ожидал, что они выйдут за пределы 400. />
Скорость-это наиболее важные критерии, и я хотел бы использовать существующий код тех, кто умнее меня, а не пытаться реализовать белую бумагу. :) < /p>

Пока самое быстрое решение, которое я придумал: < /p>

def data():
return [
"The apple is the pomaceous fruit of the apple tree, species Malus domestica in the rose family (Rosaceae).",
"This resulted in early armies adopting the style of hunter-foraging.",
"Beef pie fillings are popular in Australia. Chicken pie fillings are too."
]

def boolean_and(terms):
return '(%s)' % (''.join(['(?=.*\\b%s\\b)' % (term) for term in terms]))

def run():
words_and_phrases = ['apple', 'cherry pie']
booleans = [boolean_and(terms) for terms in [['sweet pie', 'savoury pie', 'meringue'], ['chicken pie', 'beef pie']]]
regex = re.compile(r'(?i)(\b(%s)\b|%s)' % ('|'.join(words_and_phrases), '|'.join(booleans)))
matched_data = list()
for d in data():
if regex.search(d):
matched_data.append(d)
< /code>

regex вводится как: < /p>

(?i)(\b(apple|cherry pie)\b|((?=.*\bsweet pie\b)(?=.*\bsavoury pie\b)(?=.*\bmeringue\b))|((?=.*\bchicken pie\b)(?=.*\bbeef pie\b)))
[/code]

So all the terms are ORed together, case is ignored, the words/phrases are wrapped in \b for word boundaries, the boolean ANDs use lookaheads so that all the terms are matched, but they do not have to match in a particular order.

Timeit results:

 print timeit.Timer('run()', 'from __main__ import run').timeit(number=10000)
1.41534304619
< /code>

Без ликаников (т.е. логический и логический) это действительно быстро, но как только они добавляют, скорость значительно замедляется. < /p>

У кого -нибудь есть идеи о том, как это можно улучшить? Есть ли способ оптимизировать Lookahead, или, может быть, совершенно другой подход? Я не думаю, что Stemming сработает, так как он имеет тенденцию быть немного жадным с тем, что соответствует.  

Подробнее здесь: [url]https://stackoverflow.com/questions/5427541/what-is-the-fastest-way-in-python-to-find-if-a-string-matches-any-terms-in-a-lis[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Создать массив уникальных фраз из последовательных слов, сгруппированных по количеству слов.

Последнее сообщение Anonymous « 04 мар 2024, 11:09
Добавлено в форуме Php

Anonymous » 04 мар 2024, 11:09 » в форуме Php

I'm setting up a word search using PHP's explode(), and counting how many spaces from query and how many words in the query.

For example, my user search Hello world, good morning (query from user, maybe more words)

and I get:
hello world good...

0 Ответы

106 Просмотры

Последнее сообщение Anonymous
04 мар 2024, 11:09
Самый быстрый/самый быстрый способ конвертировать фреймы данных pandas в таблицы слов

Последнее сообщение Anonymous « 29 фев 2024, 18:49
Добавлено в форуме Python

Anonymous » 29 фев 2024, 18:49 » в форуме Python

Я пытаюсь преобразовать кадры данных pandas в таблицы слов. Однако для больших фреймов данных текущий процесс, который я использую, чрезвычайно медленный. Это связано с тем, что к каждой ячейке необходимо обращаться поочередно. Насколько мне...

0 Ответы

57 Просмотры

Последнее сообщение Anonymous
29 фев 2024, 18:49
Извлечение ключевых слов/фраз из произвольного текста с использованием NLTK и Python для структурированных запросов.

Последнее сообщение Anonymous « 08 дек 2024, 03:25
Добавлено в форуме Python

Anonymous » 08 дек 2024, 03:25 » в форуме Python

Я хочу интерпретировать определенные ключевые слова из произвольного текста, например «Я хочу заказать вареные яйца и шпинатный суп в ближайших ресторанах», и использовать их для поиска контента в моей базе данных.
Например, я хочу извлечь следующее...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
08 дек 2024, 03:25
Как я могу заставить или переобучить языковую модель для прогнозирования с использованием определенных слов/фраз?

Последнее сообщение Anonymous « 15 июл 2024, 08:08
Добавлено в форуме Python

Anonymous » 15 июл 2024, 08:08 » в форуме Python

Цель — создать программу, которая отображает слово и позволяет пользователю попытаться произнести то, что отображается на экране, в качестве введения в произношение и словарный запас. Язык, с которым я работаю, — тайский, но примеры здесь будут на...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 08:08
Как я могу заставить или переобучить языковую модель для прогнозирования с использованием определенных слов/фраз? [закры

Последнее сообщение Anonymous « 15 июл 2024, 15:42
Добавлено в форуме Python

Anonymous » 15 июл 2024, 15:42 » в форуме Python

Я пытаюсь создать программу, которая отображает слово и позволяет пользователю попытаться произнести то, что отображается на экране, в качестве введения в произношение и словарный запас. Язык, с которым я работаю, – тайский, но примеры здесь будут...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
15 июл 2024, 15:42

Вернуться в «Python»