Поиск файла в алфавитном порядке в Python выполняется медленно

Поиск файла в алфавитном порядке в Python выполняется медленно ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Поиск файла в алфавитном порядке в Python выполняется медленно

Цитата

Сообщение Anonymous » 12 янв 2025, 02:05

У меня есть 2 текстовых файла, расположенных в алфавитном порядке.
wordlist.txt, который содержит список уникальных слов:

Код: Выделить всё

(word)
a
ad
and
at

dictionary.txt, который содержит список неуникальных слов, за которыми следуют табуляция и определение:

Код: Выделить всё

(word)  (definition)
and congiunzione
at  abbreviazione
at  avverbio

Для каждого слова в wordlist.txt мне нужно пройти по dictionary.txt, пока я не найду первое совпадение, и собрать соответствующие определения и последующие, если они есть.
Собрав, я прерываю цикл поиска, так как дальше перемещаться по словарю было бы бесполезно.
Я приступаю к определению следующая запись в wordlist.txt и т. д.
Это фрагмент моего кода:

Код: Выделить всё

for wordtosearch in open("wordlist.txt", "r"):
found = 0
isfound = False

for dictionaryentry in open("dictionary.txt", "r"):
dictionaryelements = dictionaryentry.split("\t") #split the word and the definition

if wordtosearch == dictionaryelements[0]:
# ... here I gather the definition and I concatenate it to the previous one
found += 1   #at least 1 entry is found
isfound = True
else:
isfound = False

#if we don't have a match in the current cicle but we've had at least un match before, it means we can stop search further
if found > 0 and isfound == False:
break

Как видите, для каждого поиска слова мне нужно просмотреть словарь, пока слово не будет найдено. Это занимает много времени, так как и в списке слов, и в словаре сотни статей, и даже если я пропущу это, на самом деле мне придется искать в пяти разных словарях.
Я подумал о сохранении номер строки, в которой совпало предыдущее слово, чтобы поиск следующего слова начинался с этой строки словаря.txt, а не с начала.
Если для предыдущего слова не найдено совпадений, я буду использовать предыдущий к этому и так далее.
Было бы это хорошим решением? Или Python предлагает что-то лучшее, о чем я не знаю?
Кстати, я не ограничиваюсь Python, если вы знаете что-то лучше, но я ограничен Windows.

Подробнее здесь: https://stackoverflow.com/questions/793 ... on-is-slow

1736636754

Anonymous

У меня есть 2 текстовых файла, расположенных в алфавитном порядке.
[b]wordlist.txt[/b], который содержит список уникальных слов:
[code](word)
a
ad
and
at
[/code]
[b]dictionary.txt[/b], который содержит список неуникальных слов, за которыми следуют табуляция и определение:
[code](word)  (definition)
and congiunzione
at  abbreviazione
at  avverbio
[/code]
Для каждого слова в [b]wordlist.txt[/b] мне нужно пройти по [b]dictionary.txt[/b], пока я не найду первое совпадение, и собрать соответствующие определения и последующие, если они есть.
Собрав, я прерываю цикл поиска, так как дальше перемещаться по словарю было бы бесполезно.
Я приступаю к определению следующая запись в [b]wordlist.txt[/b] и т. д.
Это фрагмент моего кода:
[code]for wordtosearch in open("wordlist.txt", "r"):
found = 0
isfound = False

for dictionaryentry in open("dictionary.txt", "r"):
dictionaryelements = dictionaryentry.split("\t") #split the word and the definition

if wordtosearch == dictionaryelements[0]:
# ... here I gather the definition and I concatenate it to the previous one
found += 1   #at least 1 entry is found
isfound = True
else:
isfound = False

#if we don't have a match in the current cicle but we've had at least un match before, it means we can stop search further
if found > 0 and isfound == False:
break
[/code]
Как видите, для каждого [b]поиска слова[/b] мне нужно просмотреть [b]словарь[/b], пока слово не будет найдено. Это занимает много времени, так как и в списке слов, и в словаре сотни статей, и даже если я пропущу это, на самом деле мне придется искать в пяти разных словарях.
Я подумал о сохранении номер строки, в которой совпало предыдущее слово, чтобы поиск следующего слова начинался с этой строки словаря.txt, а не с начала.
Если для предыдущего слова не найдено совпадений, я буду использовать предыдущий к этому и так далее.
Было бы это хорошим решением? Или Python предлагает что-то лучшее, о чем я не знаю?
Кстати, я не ограничиваюсь Python, если вы знаете что-то лучше, но я ограничен Windows. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79349022/search-a-file-ordered-alphabetically-in-python-is-slow[/url]