Токенизация английского текста на C#, а не на Python возможна? - Цифровое Кемерово

Токенизация английского текста на C#, а не на Python возможна? ⇐ C#

1 сообщение • Страница 1 из 1

Anonymous

Токенизация английского текста на C#, а не на Python возможна?

Сообщение Anonymous » 30 июн 2024, 20:07

В нашем программном обеспечении нам приходится анализировать обычный текстовый файл. Сначала нам следует разбить текст на абзацы, затем на предложения, затем на токены. Завершающие шаги (насколько я понимаю) — это стемминг и лемматизация.
Если у нас есть такой текст: Мы поём прекрасные песни о героях< /code> Мне бы хотелось видеть токены как [we,be,sing,great,song,about,hero]. Чтобы добиться этого, насколько я понимаю, нам нужен какой-то метод, позволяющий каким-то образом найти токены в исходном тексте, но самая сложная часть — это его стемминг/лемматизация.
Я знаю, что есть питон проект NLTK или spaCy, которые хорошо справляются с этими задачами, но для этого проекта нам нужно использовать C#. Я искал несколько часов, но не нашел доступных пакетов для этого. Не могу в это поверить, поэтому должен спросить - есть ли какие-нибудь библиотеки или для этого нужно как-то вызывать эти библиотеки из C#?

Подробнее здесь: https://stackoverflow.com/questions/786 ... s-possible

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «C#»