Тело:
Я хочу создать программу, в которой пользователь может вводить любой текст, который хочет изучить.
Во время чтения пользователь может выбирать определенные слова. Каждое выбранное слово должно быть сохранено в словаре или списке.
Позже, когда пользователь читает другой текст, программа должна проверить, появляется ли какое-либо из сохраненных слов (или их вариантов) в новом тексте. Например:
- Если пользователь выбирает учеба, программа также должна распознавать учеба, учеба, учеба и т. д.
- Цель состоит в том, чтобы напомнить пользователю, что он уже изучал это слово раньше, даже если оно встречается в другой форме.
Мои вопросы:
1. Какая структура данных лучше всего подходит для хранения этих слов и их вариантов (словарь, набор, база данных)?
2. Стоит ли мне полагаться на библиотеки стемминга/лемматизации (например, NLTK или spaCy в Python) или лучше получать словоформы из API онлайн-словаря?
3. Как эффективно проверять совпадения в больших текстах?
Я еще не решил, какой язык программирования использовать. Будет ли Python, JavaScript или другой язык более подходящим для такой задачи обработки текста?
Любые предложения по архитектуре, библиотекам или алгоритмам будут очень полезны.
Подробнее здесь: https://stackoverflow.com/questions/798 ... across-tex
Как хранить и сопоставлять выбранные пользователем слова с их различными формами в тексте? ⇐ Html
Программисты Html
1763703618
Anonymous
Тело:
Я хочу создать программу, в которой пользователь может вводить любой текст, который хочет изучить.
Во время чтения пользователь может выбирать определенные слова. Каждое выбранное слово должно быть сохранено в словаре или списке.
Позже, когда пользователь читает другой текст, программа должна проверить, появляется ли какое-либо из сохраненных слов (или их вариантов) в новом тексте. Например:
- Если пользователь выбирает учеба, программа также должна распознавать учеба, учеба, учеба и т. д.
- Цель состоит в том, чтобы напомнить пользователю, что он уже изучал это слово раньше, даже если оно встречается в другой форме.
Мои вопросы:
1. Какая структура данных лучше всего подходит для хранения этих слов и их вариантов (словарь, набор, база данных)?
2. Стоит ли мне полагаться на библиотеки стемминга/лемматизации (например, NLTK или spaCy в Python) или лучше получать словоформы из API онлайн-словаря?
3. Как эффективно проверять совпадения в больших текстах?
Я еще не решил, какой язык программирования использовать. Будет ли Python, JavaScript или другой язык более подходящим для такой задачи обработки текста?
Любые предложения по архитектуре, библиотекам или алгоритмам будут очень полезны.
Подробнее здесь: [url]https://stackoverflow.com/questions/79826164/how-to-store-and-match-user-selected-words-with-their-different-forms-across-tex[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия