Проблемы с использованием пользовательского словаря для tfidfvectorizer scikit-learn

Проблемы с использованием пользовательского словаря для tfidfvectorizer scikit-learn ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проблемы с использованием пользовательского словаря для tfidfvectorizer scikit-learn

Цитата

Сообщение Anonymous » 27 июн 2025, 18:06

Я пытаюсь использовать пользовательский словарь в Scikit-Learn для некоторых задач кластеризации, и я получаю очень странные результаты. Тем не менее, я уже определил группу слов (около 24 000), которые я хотел бы использовать в качестве пользовательского словаря. Я пробовал до сих пор 2 подхода, но в конце я получаю те же результаты. Первый - создать список, второй - создать словарь. Код для создания словаря такой: < /p>

myvocab = {}
vocabulary = []

count = 0

for row in results:
skillName = re.sub(r'&#?[a-z0-9]+;', ' ', row['SkillName'])
skillName = unicode(skillName,"utf-8")
vocabulary.append(skillName) #Using a list
myvocab[str(skillName)] = count #Using a dictionary
count+=1
< /code>

Я затем использую словарный запас (либо версия списка, либо словарь, оба они дают один и тот же результат в конце) в Tfidfectorizer следующим образом: < /p>

vectorizer = TfidfVectorizer(max_df=0.8,
stop_words='english' ,ngram_range=(1,2) ,vocabulary=myvocab)
X = vectorizer.fit_transform(dataset2)
< /code>

Форма X равен (651, 24321), так как у меня есть 651 экземпляры для кластера и 24321 слова в словаре.(14, 11462) 1.0
(20, 10218) 1.0
(34, 11462) 1.0
(40, 11462) 0.852815313278
(40, 10218) 0.52221264006
(50, 11462) 1.0
(81, 11462) 1.0
(84, 11462) 1.0
(85, 11462) 1.0
(99, 10218) 1.0
(127, 11462) 1.0
(129, 10218) 1.0
(132, 11462) 1.0
(136, 11462) 1.0
(138, 11462) 1.0
(150, 11462) 1.0
(158, 11462) 1.0
(186, 11462) 1.0
(210, 11462) 1.0

: :
< /code>

Как видно, для большинства случаев присутствует только слово из словарного запаса (что неправильно, так как есть как минимум 10), и для многих случаев не найдено даже одно слово. Кроме того, найденные слова, как правило, всегда одинаковы в случаях, что не имеет смысла.feature_names = np.asarray(vectorizer.get_feature_names())
< /code>

i get: < /p>

['.NET' '10K' '21 CFR Part 11' ..., 'Zend Studio' 'Zendesk' 'Zenworks']
< /code>

Я должен сказать, что программа работала отлично, когда используемый словарный запас был определен из входных документов, поэтому я настоятельно подозреваю, что проблема связана с использованием пользовательского словаря. < /p>

Кто -нибудь имеет подсказку о том, что происходит?>

Подробнее здесь: https://stackoverflow.com/questions/149 ... ikit-learn

1751036815

Anonymous

 Я пытаюсь использовать пользовательский словарь в Scikit-Learn для некоторых задач кластеризации, и я получаю очень странные результаты. Тем не менее, я уже определил группу слов (около 24 000), которые я хотел бы использовать в качестве пользовательского словаря.  Я пробовал до сих пор 2 подхода, но в конце я получаю те же результаты. Первый - создать список, второй - создать словарь.  Код для создания словаря такой: < /p>

myvocab = {}
vocabulary = []

count = 0

for row in results:
skillName = re.sub(r'&#?[a-z0-9]+;', ' ', row['SkillName'])
skillName = unicode(skillName,"utf-8")
vocabulary.append(skillName)  #Using a list
myvocab[str(skillName)] = count #Using a dictionary
count+=1
< /code>

Я затем использую словарный запас (либо версия списка, либо словарь, оба они дают один и тот же результат в конце) в Tfidfectorizer следующим образом: < /p>

vectorizer = TfidfVectorizer(max_df=0.8,
stop_words='english' ,ngram_range=(1,2) ,vocabulary=myvocab)
X = vectorizer.fit_transform(dataset2)
< /code>

Форма X равен (651, 24321), так как у меня есть 651 экземпляры для кластера и 24321 слова в словаре.(14, 11462) 1.0
(20, 10218) 1.0
(34, 11462) 1.0
(40, 11462) 0.852815313278
(40, 10218) 0.52221264006
(50, 11462) 1.0
(81, 11462) 1.0
(84, 11462) 1.0
(85, 11462) 1.0
(99, 10218) 1.0
(127, 11462)    1.0
(129, 10218)    1.0
(132, 11462)    1.0
(136, 11462)    1.0
(138, 11462)    1.0
(150, 11462)    1.0
(158, 11462)    1.0
(186, 11462)    1.0
(210, 11462)    1.0

:   :
< /code>

Как видно, для большинства случаев присутствует только слово из словарного запаса (что неправильно, так как есть как минимум 10), и для многих случаев не найдено даже одно слово.  Кроме того, найденные слова, как правило, всегда одинаковы в случаях, что не имеет смысла.feature_names = np.asarray(vectorizer.get_feature_names())
< /code>

i get: < /p>

['.NET' '10K' '21 CFR Part 11' ..., 'Zend Studio' 'Zendesk' 'Zenworks']
< /code>

Я должен сказать, что программа работала отлично, когда используемый словарный запас был определен из входных документов, поэтому я настоятельно подозреваю, что проблема связана с использованием пользовательского словаря.   < /p>

Кто -нибудь имеет подсказку о том, что происходит?> 

Подробнее здесь: [url]https://stackoverflow.com/questions/14986893/problems-using-a-custom-vocabulary-for-tfidfvectorizer-scikit-learn[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Проблемы с использованием специального словаря для TfidfVectorizer scikit-learn

Последнее сообщение Anonymous « 29 июн 2024, 15:05
Добавлено в форуме Python

Anonymous » 29 июн 2024, 15:05 » в форуме Python

Я пытаюсь использовать специальный словарь в scikit-learn для некоторых задач кластеризации и получаю очень странные результаты.

Программа работает нормально, когда нет используя собственный словарь, и я доволен созданием кластера. Однако я уже...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
29 июн 2024, 15:05
Проблемы с использованием специального словаря для TfidfVectorizer scikit-learn

Последнее сообщение Anonymous « 27 окт 2024, 21:08
Добавлено в форуме Python

Anonymous » 27 окт 2024, 21:08 » в форуме Python

Я пытаюсь использовать специальный словарь в scikit-learn для некоторых задач кластеризации и получаю очень странные результаты.

Программа работает нормально, когда нет используя собственный словарь, и я доволен созданием кластера. Однако я уже...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
27 окт 2024, 21:08
Я не понимаю работу tfidfvectorizer scikit-learn.

Последнее сообщение Anonymous « 24 июл 2024, 13:05
Добавлено в форуме Python

Anonymous » 24 июл 2024, 13:05 » в форуме Python

Известная мне формула для расчета tf-idf: TF * IDF, где TF — это количество раз, которое слово встречается в документе D, а IDF — это количество документов/количество документов, содержащих это слово + 1. >
Это мой набор данных.
corpus =
Теперь я...

0 Ответы

10 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 13:05
Я не понимаю работу tfidfvectorizer scikit-learn.

Последнее сообщение Anonymous « 24 июл 2024, 17:11
Добавлено в форуме Python

Anonymous » 24 июл 2024, 17:11 » в форуме Python

Известная мне формула для расчета tf-idf: TF * IDF, где TF — это количество раз, которое слово встречается в документе D, а IDF — это количество документов/количество документов, содержащих это слово + 1. >
Это мой набор данных.
corpus =
Теперь я...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 17:11
Использование серии Polars в качестве входных данных для Scikit Learn Tfidfvectorizer

Последнее сообщение Anonymous « 06 май 2025, 23:13
Добавлено в форуме Python

Anonymous » 06 май 2025, 23:13 » в форуме Python

Мы рассмотрим добавление поддержки Polars в string_grouper ( Чтобы сделать эту работу, в качестве первого шага мы должны иметь возможность запустить TFIDFVectorizor в серии Polars. На веб-сайте Polars кажется, что это поддерживается: Я делаю что-то...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
06 май 2025, 23:13

Вернуться в «Python»