Векторы слов, обученные с помощью word2vec, имеют очень небольшую ценность во всех измерениях для всех слов.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Векторы слов, обученные с помощью word2vec, имеют очень небольшую ценность во всех измерениях для всех слов.

Сообщение Anonymous »

Я использую word2vec (gensim 4.3.3) для встраивания слов, результаты векторов слов из сохраненного файла «wv.vectors.npy» показывают, что все векторы слов малы, минимум всего массива равен -0,003 и max равен 0,003, то есть каждое слово включает в себя очень маленький вектор, чего не ожидается.
Кажется, проблемы заключаются в том, что мой корпус или слово не подходят для применение модели word2vec или что-то с настройками обучения?
Я работаю с mol2vec (https://github.com/samoturk/mol2vec), который встраивает молекулы в векторы с помощью слово2век. Я пытаюсь переобучить модель с помощью моего собственного списка молекул, «слова» - это идентификационные номера (нет «настоящих» слов, это просто хешированные числа, сгенерированные отпечатками пальцев Моргана, представляющими подструктуру молекулы, все слова составляют молекулу или предложение), корпус выглядит так

Код: Выделить всё

2246997334 3696389118 2246699815 2259502203 977461771 2245384272 1506993418 UNK 2245273601 1736287034 387666683 864662311 1542633699 2245277810 954800030 3006711714 864674487 1979311206 264864308 2246699815 3537119515 2246728737 3537119515
864942730 10565946 3217380708 328936174 3237386214 2132511834 2297887526 808456108 3218693969 584893129 864662311 2192318254
20 миллионов предложений, 0,3 миллиона уникальных слов
обучены в основном с настройками по умолчанию, взятыми из исходного кода mol2vec (исходный код использует word2vec из более старой версии gensim, я меняю код для использования в более новой версии gensim, что не должно повлиять на производительность)
?

Код: Выделить всё

corpus = word2vec.LineSentence('smiles.cp.unk')
model = word2vec.Word2Vec(corpus, vector_size=300, window=10, min_count=4, workers=-1, sg=1)
Предварительно обученная модель, предоставленная исходным кодом mol2vec, имеет массив векторов с номером от -2 до 2. Тем не менее, я пробовал разные размеры окна и размер вектора, все они дают одинаковые результаты для вектора небольшого числа -0,003. до 0,003.

Подробнее здесь: https://stackoverflow.com/questions/793 ... ion-for-al
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Tempdata ведет себя непоследовательно - иногда хранит последнюю ценность, иногда старую ценность
    Anonymous » » в форуме C#
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Количественная неопределенность в измерениях площади с помощью Python opencv
    Anonymous » » в форуме Python
    0 Ответы
    15 Просмотры
    Последнее сообщение Anonymous
  • Количественная неопределенность в измерениях площади с помощью Python opencv
    Anonymous » » в форуме Python
    0 Ответы
    11 Просмотры
    Последнее сообщение Anonymous
  • Word2vec загружается слишком долго
    Anonymous » » в форуме Python
    0 Ответы
    12 Просмотры
    Последнее сообщение Anonymous
  • Сходство от слова к предложению после выполнения word2vec
    Anonymous » » в форуме Python
    0 Ответы
    15 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»