Векторы слов, обученные с помощью word2vec, имеют очень небольшую ценность во всех измерениях для всех слов.

Векторы слов, обученные с помощью word2vec, имеют очень небольшую ценность во всех измерениях для всех слов. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Векторы слов, обученные с помощью word2vec, имеют очень небольшую ценность во всех измерениях для всех слов.

Цитата

Сообщение Anonymous » 04 янв 2025, 01:54

Я использую word2vec (gensim 4.3.3) для встраивания слов, результаты векторов слов из сохраненного файла «wv.vectors.npy» показывают, что все векторы слов малы, минимум всего массива равен -0,003 и max равен 0,003, то есть каждое слово включает в себя очень маленький вектор, чего не ожидается.
Кажется, проблемы заключаются в том, что мой корпус или слово не подходят для применение модели word2vec или что-то с настройками обучения?
Я работаю с mol2vec (https://github.com/samoturk/mol2vec), который встраивает молекулы в векторы с помощью слово2век. Я пытаюсь переобучить модель с помощью моего собственного списка молекул, «слова» - это идентификационные номера (нет «настоящих» слов, это просто хешированные числа, сгенерированные отпечатками пальцев Моргана, представляющими подструктуру молекулы, все слова составляют молекулу или предложение), корпус выглядит так

Код: Выделить всё

2246997334 3696389118 2246699815 2259502203 977461771 2245384272 1506993418 UNK 2245273601 1736287034 387666683 864662311 1542633699 2245277810 954800030 3006711714 864674487 1979311206 264864308 2246699815 3537119515 2246728737 3537119515
864942730 10565946 3217380708 328936174 3237386214 2132511834 2297887526 808456108 3218693969 584893129 864662311 2192318254

20 миллионов предложений, 0,3 миллиона уникальных слов
обучены в основном с настройками по умолчанию, взятыми из исходного кода mol2vec (исходный код использует word2vec из более старой версии gensim, я меняю код для использования в более новой версии gensim, что не должно повлиять на производительность)
?

Код: Выделить всё

corpus = word2vec.LineSentence('smiles.cp.unk')
model = word2vec.Word2Vec(corpus, vector_size=300, window=10, min_count=4, workers=-1, sg=1)

Предварительно обученная модель, предоставленная исходным кодом mol2vec, имеет массив векторов с номером от -2 до 2. Тем не менее, я пробовал разные размеры окна и размер вектора, все они дают одинаковые результаты для вектора небольшого числа -0,003. до 0,003.

Подробнее здесь: https://stackoverflow.com/questions/793 ... ion-for-al

1735944886

Anonymous

Я использую word2vec (gensim 4.3.3) для встраивания слов, результаты векторов слов из сохраненного файла «wv.vectors.npy» показывают, что все векторы слов малы, минимум всего массива равен -0,003 и max равен 0,003, то есть каждое слово включает в себя очень маленький вектор, чего не ожидается.
Кажется, проблемы заключаются в том, что мой корпус или слово не подходят для применение модели word2vec или что-то с настройками обучения?
Я работаю с mol2vec (https://github.com/samoturk/mol2vec), который встраивает молекулы в векторы с помощью слово2век. Я пытаюсь переобучить модель с помощью моего собственного списка молекул, «слова» - это идентификационные номера (нет «настоящих» слов, это просто хешированные числа, сгенерированные отпечатками пальцев Моргана, представляющими подструктуру молекулы, все слова составляют молекулу или предложение), корпус выглядит так
[code]2246997334 3696389118 2246699815 2259502203 977461771 2245384272 1506993418 UNK 2245273601 1736287034 387666683 864662311 1542633699 2245277810 954800030 3006711714 864674487 1979311206 264864308 2246699815 3537119515 2246728737 3537119515
864942730 10565946 3217380708 328936174 3237386214 2132511834 2297887526 808456108 3218693969 584893129 864662311 2192318254
[/code]
20 миллионов предложений, 0,3 миллиона уникальных слов
обучены в основном с настройками по умолчанию, взятыми из исходного кода mol2vec (исходный код использует word2vec из более старой версии gensim, я меняю код для использования в более новой версии gensim, что не должно повлиять на производительность)
?[code]corpus = word2vec.LineSentence('smiles.cp.unk')
model = word2vec.Word2Vec(corpus, vector_size=300, window=10, min_count=4, workers=-1, sg=1)
[/code]
Предварительно обученная модель, предоставленная исходным кодом mol2vec, имеет массив векторов с номером от -2 до 2. Тем не менее, я пробовал разные размеры окна и размер вектора, все они дают одинаковые результаты для вектора небольшого числа -0,003. до 0,003. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79321001/word-vectors-trained-from-word2vec-have-very-small-value-in-all-dimension-for-al[/url]