Это мой набор данных.
Код: Выделить всё
corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?', ]
Но когда я использовал векторизатор tfidf sckit, результат был:
1,22314355
Векторизатор, который я использовал, имел следующие параметры:
Код: Выделить всё
vectorizer = TfidfVectorizer(norm=None)
Подробнее здесь: https://stackoverflow.com/questions/775 ... ckit-learn