Код: Выделить всё
from nltk.tokenize import MWETokenizer
sents = "in a nutshell"
mwe_tok = MWETokenizer()
mwe_tok.add_mwe(sents)
output = mwe_tok.tokenize(sents.split(" "))
Код: Выделить всё
["in", "a", "nutshell"] -> ["in_a_nutshell"]
Код: Выделить всё
from nltk import ngrams
sents = "in a nutshell"
grams = ngrams(sents.split(), 3)
Код: Выделить всё
["in", "a", "nutshell"] -> ("in", "a", "nutshell")
Код: Выделить всё
count_vectorizer = CountVectorizer(ngram_range=(1, 3))
это скорее вопрос методологии и попытки понять, почему одна задача выполняется лучше другой или одна задача лучше, чем другой.
Подробнее здесь: https://stackoverflow.com/questions/786 ... rizerngram