Я не понимаю работу tfidfvectorizer scikit-learn.

Я не понимаю работу tfidfvectorizer scikit-learn. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Я не понимаю работу tfidfvectorizer scikit-learn.

Цитата

Сообщение Anonymous » 24 июл 2024, 13:05

Известная мне формула для расчета tf-idf: TF * IDF, где TF — это количество раз, которое слово встречается в документе D, а IDF — это количество документов/количество документов, содержащих это слово + 1. >
Это мой набор данных.

Код: Выделить всё

corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?', ]

Теперь я рассчитал td-idf слова «документ» в документе 1, результат составил 0,22.
Но когда я использовал векторизатор tfidf sckit, результат был:
1,22314355
Векторизатор, который я использовал, имел следующие параметры:

Код: Выделить всё

vectorizer = TfidfVectorizer(norm=None)

Пожалуйста, объясните мне, почему ответ другой.

Подробнее здесь: https://stackoverflow.com/questions/775 ... ckit-learn

1721815522

Anonymous

Известная мне формула для расчета tf-idf: TF * IDF, где TF — это количество раз, которое слово встречается в документе D, а IDF — это количество документов/количество документов, содержащих это слово + 1. >
Это мой набор данных.
[code]corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?', ][/code]
Теперь я рассчитал td-idf слова «документ» в документе 1, результат составил 0,22.
Но когда я использовал векторизатор tfidf sckit, результат был:
1,22314355
Векторизатор, который я использовал, имел следующие параметры:
[code]vectorizer = TfidfVectorizer(norm=None) [/code]
Пожалуйста, объясните мне, почему ответ другой. 

Подробнее здесь: [url]https://stackoverflow.com/questions/77541978/i-do-not-understand-the-working-of-tfidfvectorizer-of-sckit-learn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Я не понимаю работу tfidfvectorizer scikit-learn.

Последнее сообщение Anonymous « 24 июл 2024, 17:11
Добавлено в форуме Python

Anonymous » 24 июл 2024, 17:11 » в форуме Python

Известная мне формула для расчета tf-idf: TF * IDF, где TF — это количество раз, которое слово встречается в документе D, а IDF — это количество документов/количество документов, содержащих это слово + 1. >
Это мой набор данных.
corpus =
Теперь я...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 17:11
Проблемы с использованием специального словаря для TfidfVectorizer scikit-learn

Последнее сообщение Anonymous « 29 июн 2024, 15:05
Добавлено в форуме Python

Anonymous » 29 июн 2024, 15:05 » в форуме Python

Я пытаюсь использовать специальный словарь в scikit-learn для некоторых задач кластеризации и получаю очень странные результаты.

Программа работает нормально, когда нет используя собственный словарь, и я доволен созданием кластера. Однако я уже...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 15:05
Проблемы с использованием специального словаря для TfidfVectorizer scikit-learn

Последнее сообщение Anonymous « 27 окт 2024, 21:08
Добавлено в форуме Python

Anonymous » 27 окт 2024, 21:08 » в форуме Python

Я пытаюсь использовать специальный словарь в scikit-learn для некоторых задач кластеризации и получаю очень странные результаты.

Программа работает нормально, когда нет используя собственный словарь, и я доволен созданием кластера. Однако я уже...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
27 окт 2024, 21:08
Использование серии Polars в качестве входных данных для Scikit Learn Tfidfvectorizer

Последнее сообщение Anonymous « 06 май 2025, 23:13
Добавлено в форуме Python

Anonymous » 06 май 2025, 23:13 » в форуме Python

Мы рассмотрим добавление поддержки Polars в string_grouper ( Чтобы сделать эту работу, в качестве первого шага мы должны иметь возможность запустить TFIDFVectorizor в серии Polars. На веб-сайте Polars кажется, что это поддерживается: Я делаю что-то...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
06 май 2025, 23:13
Как вручную инженерную особенности TFIDFVectorizer в Scikit-Learn?

Последнее сообщение Anonymous « 16 июн 2025, 18:22
Добавлено в форуме Python

Anonymous » 16 июн 2025, 18:22 » в форуме Python

Я пытаюсь кластер документы по ключевым словам. Я использую следующий код, чтобы сделать TDIDF-matrix :

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(max_df=.8, max_features=1000,
min_df=0.07,...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
16 июн 2025, 18:22

Вернуться в «Python»