Токенизация английского текста на C#, а не на Python возможна?C#

Место общения программистов C#
Ответить Пред. темаСлед. тема
Anonymous
 Токенизация английского текста на C#, а не на Python возможна?

Сообщение Anonymous »

В нашем программном обеспечении нам приходится анализировать обычный текстовый файл. Сначала нам следует разбить текст на абзацы, затем на предложения, затем на токены. Завершающие шаги (насколько я понимаю) — это стемминг и лемматизация.
Если у нас есть такой текст: Мы поём прекрасные песни о героях< /code> Мне бы хотелось видеть токены как [we,be,sing,great,song,about,hero]. Чтобы добиться этого, насколько я понимаю, нам нужен какой-то метод, позволяющий каким-то образом найти токены в исходном тексте, но самая сложная часть — это его стемминг/лемматизация.
Я знаю, что есть питон проект NLTK или spaCy, которые хорошо справляются с этими задачами, но для этого проекта нам нужно использовать C#. Я искал несколько часов, но не нашел доступных пакетов для этого. Не могу в это поверить, поэтому должен спросить - есть ли какие-нибудь библиотеки или для этого нужно как-то вызывать эти библиотеки из C#?

Подробнее здесь: https://stackoverflow.com/questions/786 ... s-possible
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Apache Camel — разделение, токенизация и агрегирование не завершаются
    Anonymous » » в форуме JAVA
    0 Ответы
    21 Просмотры
    Последнее сообщение Anonymous
  • Apache Camel — разделение, токенизация и агрегирование не завершаются при использовании пула Exchange-Factory
    Anonymous » » в форуме JAVA
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous
  • Apache Camel — разделение, токенизация и агрегирование не завершаются при использовании пула Exchange-Factory
    Anonymous » » в форуме JAVA
    0 Ответы
    11 Просмотры
    Последнее сообщение Anonymous
  • Токенизация строковых значений для обучения модели ИИ
    Anonymous » » в форуме Python
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous
  • Перевод с английского на испанский не работает в файле JSP
    Anonymous » » в форуме JAVA
    0 Ответы
    43 Просмотры
    Последнее сообщение Anonymous

Вернуться в «C#»