В нашем программном обеспечении нам приходится анализировать обычный текстовый файл. Сначала нам следует разбить текст на абзацы, затем на предложения, затем на токены. Завершающие шаги (насколько я понимаю) — это стемминг и лемматизация.
Если у нас есть такой текст: Мы поём прекрасные песни о героях< /code> Мне бы хотелось видеть токены как [we,be,sing,great,song,about,hero]. Чтобы добиться этого, насколько я понимаю, нам нужен какой-то метод, позволяющий каким-то образом найти токены в исходном тексте, но самая сложная часть — это его стемминг/лемматизация.
Я знаю, что есть питон проект NLTK или spaCy, которые хорошо справляются с этими задачами, но для этого проекта нам нужно использовать C#. Я искал несколько часов, но не нашел доступных пакетов для этого. Не могу в это поверить, поэтому должен спросить - есть ли какие-нибудь библиотеки или для этого нужно как-то вызывать эти библиотеки из C#?
Подробнее здесь: https://stackoverflow.com/questions/786 ... s-possible
Токенизация английского текста на C#, а не на Python возможна? ⇐ C#
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение