Правильное использование Regex для анализа списка строк

Правильное использование Regex для анализа списка строк ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Правильное использование Regex для анализа списка строк

Цитата

Сообщение Anonymous » 14 ноя 2024, 01:59

У меня есть один список

Код: Выделить всё

list = ['word one', 'two', 'Three', 'four five' 'four']

И у меня есть такой текст:

Код: Выделить всё

txt_to_parse = "This is word one with four letters and four five characteristics for people #gopeople"

Я хочу получить совпадение между list и txt_to_parse, чтобы конечный результат был

Код: Выделить всё

#gopeople (goup(0) - #, Group(1) - gopeople
four - position xy string match - 'four'
four - position yz string match - 'four'
four five - position yz string match - 'four five'

Порядок не имеет значения, но я предполагаю, что это будет re.finditer()
Есть ли лучший способ решить эту проблему, кроме создания список (List_loop) re.compile для каждого требования:

хэштег или упоминание, за которым следуют слова
re .компилировать для всех ключевых слов в списке

затем просматриваем каждый элемент в list_loop и выполняем re.finditer и получаем все совпадения?
Примерно так:

Код: Выделить всё

fruit_list = ['apple banana', 'apple', 'pineapple', 'banana', 'banana apple',  'kiwi']
fruit = re.compile('|'.join(fruit_list))
fruit_re = [ re.compile(r'\b'+re.escape(fruit)+r'\b') for fruit in fruit_list]
fruit_re.append(re.compile( r'([#@])(\w+)|\b'))

string = "this is apple is banana apple #apple"

for ft in fruit_re:
print(ft)
match = re.finditer(ft, string)

for mat in match:
print(mat)

Или есть ли лучший/более быстрый способ добиться этого. Список ключевых слов будет около 100 тысяч, а фактическая строка может состоять из нескольких строк.
Спасибо

Подробнее здесь: https://stackoverflow.com/questions/791 ... of-strings

1731538780

Anonymous

У меня есть один список
[code]list = ['word one', 'two', 'Three', 'four five' 'four']
[/code]
И у меня есть такой текст:
[code]txt_to_parse = "This is word one with four letters and four five characteristics for people #gopeople"
[/code]
Я хочу получить совпадение между list и txt_to_parse, чтобы конечный результат был 
[code]#gopeople (goup(0) - #, Group(1) - gopeople
four - position xy string match - 'four'
four - position yz string match - 'four'
four five - position yz string match - 'four five'
[/code]
Порядок не имеет значения, но я предполагаю, что это будет re.finditer()
Есть ли лучший способ решить эту проблему, кроме создания список (List_loop) re.compile для каждого требования:
[list]
[*]хэштег или упоминание, за которым следуют слова
[*]re .компилировать для всех ключевых слов в списке
[/list]
затем просматриваем каждый элемент в list_loop и выполняем re.finditer и получаем все совпадения?
Примерно так:
[code]fruit_list = ['apple banana', 'apple', 'pineapple', 'banana', 'banana apple',  'kiwi']
fruit = re.compile('|'.join(fruit_list))
fruit_re = [ re.compile(r'\b'+re.escape(fruit)+r'\b') for fruit in fruit_list]
fruit_re.append(re.compile( r'([#@])(\w+)|\b'))

string = "this is apple is banana apple #apple"

for ft in fruit_re:
print(ft)
match = re.finditer(ft, string)

for mat in match:
print(mat)
[/code]
Или есть ли лучший/более быстрый способ добиться этого. Список ключевых слов будет около 100 тысяч, а фактическая строка может состоять из нескольких строк.
Спасибо 

Подробнее здесь: [url]https://stackoverflow.com/questions/79186921/correct-use-of-regex-to-parse-list-of-strings[/url]