Список NGRAM Python с частотамиPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Список NGRAM Python с частотами

Сообщение Anonymous »

Мне нужно получить наиболее популярные NGRAM из текста. Длина ngrams должна быть от 1 до 5 слов. < /p>

Я знаю, как получить биграмы и триграммы. Например: < /p>

bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = nltk.collocations.BigramCollocationFinder.from_words(words)
finder.apply_freq_filter(3)
finder.apply_word_filter(filter_stops)
matches1 = finder.nbest(bigram_measures.pmi, 20)
< /code>

Однако я обнаружил, что Scikit-learn может получать NGRAM с различной длиной. Например, я могу получить NGRAM с длиной от 1 до 5. < /P>

v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5))
< /code>

Но Wordngramanalyzer теперь устарел. Мой вопрос: Как я могу получить лучшие избирательными избирателями из моего текста, с длиной избирательств от 1 до 5. Также мне нужно получить Freqlist от этих колокатов/ngrams.

Могу ли я сделать это с NLTK /Scikit? Мне нужно получить комбинации NGRAM с различной длиной из одного текста? < /p>

Например, используя NLTK Bigrams и триграммы, где многие ситуации, в которых мои триграммы включают мои битграммы или мои триграммы, являются частью более крупных 4-граммовых. Например:

bitgrams: hello my
trigrams: Привет, мое имя
Я знаю, как исключить биграмы из триграмм, но мне нужны лучшие решения. < /p>

Подробнее здесь: https://stackoverflow.com/questions/117 ... requencies
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»