Как устранить несоответствие векторизатора

Как устранить несоответствие векторизатора ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как устранить несоответствие векторизатора

Цитата

Сообщение Anonymous » 27 ноя 2024, 22:30

Я использую TfidfVectorizer для векторизатора текста, но при попытке получить cosine_similarity возникает несоответствие размеров.
Моя ситуация выглядит так:
во-первых,

Код: Выделить всё

def clean_text(text):
return re.sub(r'[^a-zA-Z0-9 ]', "", text)

movies['title'] = movies['title'].apply(clean_text)

vectorizer = TfidfVectorizer(ngram_range=(1,2), stop_words ='english')

title_vec = vectorizer.fit_transform(movies['title'])

title = "Toy Story"

title = clean_text(title)

word_vec  = vectorizer.transform([title])

similarity = cosine_similarity(word_vec, title_vec)

что приводит к сообщению об ошибке:

Код: Выделить всё

ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 172412 while Y.shape[1] == 156967

PS: я проверил длину слов word_vec и title_vec, они показывают разную длину.
Я установил ngram_range= (1,1) в векторизаторе, но положительного результата нет.
Я использовал countvectorizer(), но проблема осталась
У меня не было выбора и ChatGPT предоставил решение, которое не помогло проблема:

Код: Выделить всё

from scipy.sparse import hstack

Дополните меньшую матрицу нулями

Код: Выделить всё

if word_vec.shape[1] > title_vec.shape[1]:
diff = word_vec.shape[1] - title_vec.shape[1]
title_vec = hstack([title_vec, np.zeros((title_vec.shape[0], diff))])
elif title_vec.shape[1] > word_vec.shape[1]:
diff = title_vec.shape[1] - word_vec.shape[1]
word_vec = hstack([word_vec, np.zeros((word_vec.shape[0], diff))])

поэтому я не смог использовать приведенный выше код, но размещаю его здесь, чтобы показать масштабы этой проблемы.
спасибо за помощь в будущем.

Подробнее здесь: https://stackoverflow.com/questions/792 ... r-mismatch

1732735855

Anonymous

Я использую TfidfVectorizer для векторизатора текста, но при попытке получить cosine_similarity возникает несоответствие размеров.
Моя ситуация выглядит так:
во-первых,
[code]def clean_text(text):
return re.sub(r'[^a-zA-Z0-9 ]', "", text)

movies['title'] = movies['title'].apply(clean_text)

vectorizer = TfidfVectorizer(ngram_range=(1,2), stop_words ='english')

title_vec = vectorizer.fit_transform(movies['title'])

title = "Toy Story"

title = clean_text(title)

word_vec  = vectorizer.transform([title])

similarity = cosine_similarity(word_vec, title_vec)
[/code]
что приводит к сообщению об ошибке:
[code]ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 172412 while Y.shape[1] == 156967
[/code]
PS: я проверил длину слов word_vec и title_vec, они показывают разную длину.
Я установил ngram_range= (1,1) в векторизаторе, но положительного результата нет.
Я использовал countvectorizer(), но проблема осталась
У меня не было выбора и ChatGPT предоставил решение, которое не помогло проблема:
[code]from scipy.sparse import hstack
[/code]
Дополните меньшую матрицу нулями
[code]if word_vec.shape[1] > title_vec.shape[1]:
diff = word_vec.shape[1] - title_vec.shape[1]
title_vec = hstack([title_vec, np.zeros((title_vec.shape[0], diff))])
elif title_vec.shape[1] > word_vec.shape[1]:
diff = title_vec.shape[1] - word_vec.shape[1]
word_vec = hstack([word_vec, np.zeros((word_vec.shape[0], diff))])
[/code]
поэтому я не смог использовать приведенный выше код, но размещаю его здесь, чтобы показать масштабы этой проблемы.
спасибо за помощь в будущем.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79231510/how-do-i-resolve-vectorizer-mismatch[/url]