Кажется, проблемы заключаются в том, что мой корпус или слово не подходят для применение модели word2vec или что-то с настройками обучения?
Я работаю с mol2vec (https://github.com/samoturk/mol2vec), который встраивает молекулы в векторы с помощью слово2век. Я пытаюсь переобучить модель с помощью моего собственного списка молекул, «слова» - это идентификационные номера (нет «настоящих» слов, это просто хешированные числа, сгенерированные отпечатками пальцев Моргана, представляющими подструктуру молекулы, все слова составляют молекулу или предложение), корпус выглядит так
Код: Выделить всё
2246997334 3696389118 2246699815 2259502203 977461771 2245384272 1506993418 UNK 2245273601 1736287034 387666683 864662311 1542633699 2245277810 954800030 3006711714 864674487 1979311206 264864308 2246699815 3537119515 2246728737 3537119515
864942730 10565946 3217380708 328936174 3237386214 2132511834 2297887526 808456108 3218693969 584893129 864662311 2192318254
обучены в основном с настройками по умолчанию, взятыми из исходного кода mol2vec (исходный код использует word2vec из более старой версии gensim, я меняю код для использования в более новой версии gensim, что не должно повлиять на производительность)
?
Код: Выделить всё
corpus = word2vec.LineSentence('smiles.cp.unk')
model = word2vec.Word2Vec(corpus, vector_size=300, window=10, min_count=4, workers=-1, sg=1)
Подробнее здесь: https://stackoverflow.com/questions/793 ... ion-for-al