Наиболее эффективный способ поиска, если какое -либо слово в сообщении начинается с любого слова из большого набора данн

Наиболее эффективный способ поиска, если какое -либо слово в сообщении начинается с любого слова из большого набора данн ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Наиболее эффективный способ поиска, если какое -либо слово в сообщении начинается с любого слова из большого набора данн

Цитата

Сообщение Anonymous » 28 апр 2025, 19:04

У меня есть список сообщений, и мне нужно через каждое сообщение, для каждого сообщения, которое мне нужно найти, если слово в этом сообщении соответствует слову из моего набора данных или начинается с слова из моего набора данных, я не могу найти быстрый способ сделать это правильно, используя Ahocorasic Что) < /p>
Также может быть несколько совпадений с одним словом (например, если в сообщении есть «12345», а набор данных ["123", "1234"] может совпадать, и лучшее совпадение с двумя 2) < /p>
У меня есть что -то, что у меня есть, что мне очень много, и теперь это так, что у меня есть, так что это так, что у меня есть, так что это так, что у меня есть, так что это так, что у меня есть, так что это так, что у меня есть, так что у меня есть на самом деле. На более быстром способе поиска с сложностью меньшего времени
, что я делал, это работает, в основном проверяет любые точные совпадения в сообщении, а затем снова проходить через набор данных и пройти через каждое слово и использовать STARTSWITH, то убедиться, что нет перекрывающихся результатов, и если существует сохранение только наилучшего соответствия. Код: < /p>
for ref_norm, (ref_raw, brand) in ref_map.items():
if ref_norm in tokens:
if brand == "Richard Mille" and not ref_norm.startswith('rm'):
matched_refs.append(("rm"+ref_norm, "RM"+ref_raw, brand))
else:
matched_refs.append((ref_norm, ref_raw, brand))
# Prepare matches
possible_matches = []

for ref_norm, (ref_raw, brand) in ref_map.items():
if brand == "Richard Mille":
ref_clean = ref_raw.lower()
if ref_clean.startswith("rm") and ref_clean in message.lower():
possible_matches.append((ref_norm, ref_raw, brand))
else:
for word in tokens:
if word.startswith(ref_norm):
possible_matches.append((ref_norm, word, brand))
break

match = re.match(r'^([a-zA-Z]{1,2})(.+)', word)
if match and any(char.isdigit() for char in match.group(2)):
word = match.group(2)
if word.startswith(ref_norm):
possible_matches.append((ref_norm, word, brand))
break

# Sort by length of raw ref descending → longer matches first
possible_matches.sort(key=lambda x: len(x[1]), reverse=True)

# Now pick only non-overlapping matches
used_spans = []
for ref_norm, ref_raw, brand in matched_refs:
ref_lower = ref_raw.lower()
index = message.lower().find(ref_lower)
used_spans.append((index, index + len(ref_lower)))

for ref_norm, ref_raw, brand in possible_matches:
ref_lower = ref_raw.lower()
index = message.lower().find(ref_lower)
if index == -1:
continue

# Check if this index overlaps with previous matches
overlap = any(start

Подробнее здесь: https://stackoverflow.com/questions/795 ... -word-from

1745856266

Anonymous

 У меня есть список сообщений, и мне нужно через каждое сообщение, для каждого сообщения, которое мне нужно найти, если слово в этом сообщении соответствует слову из моего набора данных или начинается с слова из моего набора данных, я не могу найти быстрый способ сделать это правильно, используя Ahocorasic Что) < /p>
Также может быть несколько совпадений с одним словом (например, если в сообщении есть «12345», а набор данных ["123", "1234"] может совпадать, и лучшее совпадение с двумя 2) < /p>
У меня есть что -то, что у меня есть, что мне очень много, и теперь это так, что у меня есть, так что это так, что у меня есть, так что это так, что у меня есть, так что это так, что у меня есть, так что это так, что у меня есть, так что у меня есть на самом деле. На более быстром способе поиска с сложностью меньшего времени
, что я делал, это работает, в основном проверяет любые точные совпадения в сообщении, а затем снова проходить через набор данных и пройти через каждое слово и использовать STARTSWITH, то убедиться, что нет перекрывающихся результатов, и если существует сохранение только наилучшего соответствия. Код: < /p>
for ref_norm, (ref_raw, brand) in ref_map.items():
if ref_norm in tokens:
if brand == "Richard Mille" and not ref_norm.startswith('rm'):
matched_refs.append(("rm"+ref_norm, "RM"+ref_raw, brand))
else:
matched_refs.append((ref_norm, ref_raw, brand))
# Prepare matches
possible_matches = []

for ref_norm, (ref_raw, brand) in ref_map.items():
if brand == "Richard Mille":
ref_clean = ref_raw.lower()
if ref_clean.startswith("rm") and ref_clean in message.lower():
possible_matches.append((ref_norm, ref_raw, brand))
else:
for word in tokens:
if word.startswith(ref_norm):
possible_matches.append((ref_norm, word, brand))
break

match = re.match(r'^([a-zA-Z]{1,2})(.+)', word)
if match and any(char.isdigit() for char in match.group(2)):
word = match.group(2)
if word.startswith(ref_norm):
possible_matches.append((ref_norm, word, brand))
break

# Sort by length of raw ref descending → longer matches first
possible_matches.sort(key=lambda x: len(x[1]), reverse=True)

# Now pick only non-overlapping matches
used_spans = []
for ref_norm, ref_raw, brand in matched_refs:
ref_lower = ref_raw.lower()
index = message.lower().find(ref_lower)
used_spans.append((index, index + len(ref_lower)))

for ref_norm, ref_raw, brand in possible_matches:
ref_lower = ref_raw.lower()
index = message.lower().find(ref_lower)
if index == -1:
continue

# Check if this index overlaps with previous matches
overlap = any(start 

Подробнее здесь: [url]https://stackoverflow.com/questions/79596866/most-effective-way-to-search-if-any-word-in-a-message-starts-with-any-word-from[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Наиболее эффективный способ использования большого набора данных изображений с Google Colab - Получение тайм -аута + оши

Последнее сообщение Anonymous « 06 июл 2025, 12:26
Добавлено в форуме Python

Anonymous » 06 июл 2025, 12:26 » в форуме Python

Я использую Google colab для классификатора в Pytorch, и мой набор обучения имеет ~ 30 000 изображений JPEG, которые я хранил в своем Google Drive. Эффективно использование этого большого количества данных с Colab и Drive было кошмаром, в первую...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
06 июл 2025, 12:26
Замените «все слово», если «слово» начинается с двоеточия (\b не работает должным образом).

Последнее сообщение Anonymous « 21 май 2024, 01:44
Добавлено в форуме Php

Anonymous » 21 май 2024, 01:44 » в форуме Php

Поскольку str_replace() соответствует :Name два раза в :Name :Name_en, я хочу сопоставить результаты только для всего слова. Из-за этого ответа я хотел переключиться на preg_replace().
$str = :Name :Name_en ;
echo $str . chr(10);
$str =...

0 Ответы

40 Просмотры

Последнее сообщение Anonymous
21 май 2024, 01:44
Сопоставить строку как целое слово, если она начинается и заканчивается символами слова, и как любую строку в противном

Последнее сообщение Anonymous « 30 окт 2024, 17:43
Добавлено в форуме C#

Anonymous » 30 окт 2024, 17:43 » в форуме C#

Я ищу регулярное выражение для реализации метода поиска и замены, который идентифицирует строки типа «/Sample Text:» в более длинном тексте (например, «Это /Sample Text: в предложении»), где ' Можно указать «Совпадение всего слова» и/или «Совпадение...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
30 окт 2024, 17:43
Как перенести слово на предыдущее слово, если не подходит только последнее слово

Последнее сообщение Anonymous « 30 апр 2024, 17:36
Добавлено в форуме Android

Anonymous » 30 апр 2024, 17:36 » в форуме Android

У меня есть текст разного размера, обычно он занимает 1-3 строки. Я создаю текст с аннотированной строкой, и последние два слова всегда «искать везде». Однако у меня возникла проблема: мне нужно, чтобы слово «поиск» переносилось на слово «везде»....

0 Ответы

134 Просмотры

Последнее сообщение Anonymous
30 апр 2024, 17:36
Быстрый и эффективный алгоритм поиска большого файла JSON в Python

Последнее сообщение Anonymous « 10 окт 2024, 18:36
Добавлено в форуме Python

Anonymous » 10 окт 2024, 18:36 » в форуме Python

У меня есть большой файл JSON со структурой, похожей на словарь, содержащий значения и ключи. Я хочу эффективно и результативно искать значения. Мне нужен быстрый алгоритм поиска, который возвращает наиболее релевантные результаты.
В настоящее время...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 18:36

Вернуться в «Python»