Мне нужно получить наиболее популярные NGRAM из текста. Длина ngrams должна быть от 1 до 5 слов. < /p>
Я знаю, как получить биграмы и триграммы. Например: < /p>
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder = nltk.collocations.BigramCollocationFinder.from_words(words)
finder.apply_freq_filter(3)
finder.apply_word_filter(filter_stops)
matches1 = finder.nbest(bigram_measures.pmi, 20)
< /code>
Однако я обнаружил, что Scikit-learn может получать NGRAM с различной длиной. Например, я могу получить NGRAM с длиной от 1 до 5. < /P>
v = CountVectorizer(analyzer=WordNGramAnalyzer(min_n=1, max_n=5))
< /code>
Но Wordngramanalyzer теперь устарел. Мой вопрос: Как я могу получить лучшие избирательными избирателями из моего текста, с длиной избирательств от 1 до 5. Также мне нужно получить Freqlist от этих колокатов/ngrams.
Могу ли я сделать это с NLTK /Scikit? Мне нужно получить комбинации NGRAM с различной длиной из одного текста? < /p>
Например, используя NLTK Bigrams и триграммы, где многие ситуации, в которых мои триграммы включают мои битграммы или мои триграммы, являются частью более крупных 4-граммовых. Например:
bitgrams: hello my
trigrams: Привет, мое имя
Я знаю, как исключить биграмы из триграмм, но мне нужны лучшие решения. < /p>
Подробнее здесь: https://stackoverflow.com/questions/117 ... requencies
Список NGRAM Python с частотами ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
MySQL Полнотекстовый поиск с NGRAM PARSER не приоритет точным совпадениям слов
Anonymous » » в форуме MySql - 0 Ответы
- 44 Просмотры
-
Последнее сообщение Anonymous
-