Во время чтения пользователь может выбирать определенные слова. Каждое выбранное слово должно быть сохранено в словаре или списке.
Позже, когда пользователь прочитает другой текст, программа должна проверить, появляется ли какое-либо из сохраненных слов (или их вариантов) в новом тексте.
Например:
- Если пользователь выбирает изучение, программа также должна распознавать изучаемое, изучение, изучение и т. д.
- Цель состоит в том, чтобы напомнить пользователю, что он уже изучал это слово раньше, даже если оно встречается в другой форме.
- Какова лучшая структура данных для хранения этих слов и их вариантов (словарь, набор, база данных)?
- Должен ли я полагаться на библиотеки стеммирования/лемматизации (например, NLTK или spaCy в Python), или лучше получать словоформы из API онлайн-словаря?
- Как эффективно проверять совпадения в больших текстах?
Любые предложения по архитектуре, библиотекам или алгоритмам будут очень полезны.
Подробнее здесь: https://stackoverflow.com/questions/798 ... across-tex
Мобильная версия