Предварительно обученная модель Fasttext не создает векторы слов OOV при использовании загрузчика gensim.Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Предварительно обученная модель Fasttext не создает векторы слов OOV при использовании загрузчика gensim.

Сообщение Anonymous »

У меня возникают МНОГО проблем при попытке использовать все библиотеки fasttext (в Jupyter с Anaconda3 в Windows 11), которые я нашел на данный момент, но этот вопрос в основном касается реализации gensim. Я просто не могу заставить его работать у меня.
Версия Python
3.9.12 (основная, 4 апреля 2022 г., 05:22:27) [MSC v.1916 64 бит (AMD64)]
Информация о версии.
sys.version_info(major=3,minor=9, micro=12, Releaselevel='final', Serial=0)
В gensim 4.3.2. единственное, что мне помогло, это использование

Код: Выделить всё

import gensim.downloader as api
fasttext_model300 = api.load('fasttext-wiki-news-subwords-300')
По крайней мере, модель была загружена, однако, если я попытаюсь получить векторы слов OOV-слов, таких как fasttext_model300['nonexistentword'], я получу ключевую ошибку, которой не должно происходить с fasttext. Это было очень разочаровывающе... Так эта «модель» аналогична использованию загружаемого файла .vec?
Я также загрузил bin-файл для модели и попробовал:

Код: Выделить всё

from gensim.models import FastText as ft
fasttext_model=ft.load_fasttext_format('path/crawl-300d-2M-subword/crawl-300d-2M-subword.bin')
Но у меня есть:

Код: Выделить всё

2024-05-27 21:07:10,790 : ERROR : failed to decode invalid unicode bytes b'DeutschHrvatskiEnglishDanskNederlandssuomiFran\xc3\xa7ais\xce\x95\xce\xbb\xce\xbb\xce'; replacing invalid characters, using 'DeutschHrvatskiEnglishDanskNederlandssuomiFrançaisΕλλ\\xce'
2024-05-27 21:07:12,269 : ERROR : failed to decode invalid unicode bytes b'\xe3\x81\x99\xe3\x81\xb9\xe3\x81\xa6\xe3\x81\xae\xe5\x9b\x9e\xe7\xad\x94\xe3\x82\x92\xe9\x9d\x9e\xe8\xa1\xa8\xe7\xa4\xba\xe3\x81\xab\xe3\x81\x99\xe3\x82\x8b\xe8\xb3\xaa\xe5\x95\x8f\xe3\x82\x92\xe5\x89\x8a\xe9\x99\xa4\xe3\x81\x97\xe3'; replacing invalid characters, using 'すべての回答を非表示にする質問を削除し\\xe3'
2024-05-27 21:07:13,692 : ERROR : failed to decode invalid unicode bytes b'00Z\xe9\x83\xa8\xe5\xb1\x8b\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe3\x81\xbe\xe3\x82\x8b\xe3\x81\xbe\xe3\x82\x8b\xe8\xb2\xb8\xe5\x88\x87\xe5\xbb\xba\xe7\x89\xa9\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe4\xb8\x80\xe8\xbb\x92\xe5'; replacing invalid characters, using '00Z部屋タイプまるまる貸切建物タイプ一軒\\xe5'
2024-05-27 21:07:13,734 : ERROR : failed to decode invalid unicode bytes b'2017\xe6\x88\xbf\xe9\x97\xb4\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe6\x88\xbf\xe9\x97\xb4\xe6\x88\xbf\xe6\xba\x90\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe5\xb1\x8b\xe5\x8f\xaf\xe4\xbd\x8f2\xe5\x8d'; replacing invalid characters, using '2017房间类型独立房间房源类型独立屋可住2\\xe5\\x8d'
2024-05-27 21:07:13,901 : ERROR : failed to decode invalid unicode bytes b'2016\xe6\x88\xbf\xe9\x97\xb4\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe6\x88\xbf\xe9\x97\xb4\xe6\x88\xbf\xe6\xba\x90\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe5\xb1\x8b\xe5\x8f\xaf\xe4\xbd\x8f2\xe5\x8d'; replacing invalid characters, using '2016房间类型独立房间房源类型独立屋可住2\\xe5\\x8d'
2024-05-27 21:07:15,714 : ERROR : failed to decode invalid unicode bytes b'00Z\xe9\x83\xa8\xe5\xb1\x8b\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe3\x81\xbe\xe3\x82\x8b\xe3\x81\xbe\xe3\x82\x8b\xe8\xb2\xb8\xe5\x88\x87\xe5\xbb\xba\xe7\x89\xa9\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe5\x88\xa5\xe8\x8d\x98\xe5'; replacing invalid characters, using '00Z部屋タイプまるまる貸切建物タイプ別荘\\xe5'
2024-05-27 21:07:17,849 : ERROR : failed to decode invalid unicode bytes b'\xe6\xb6\x88\xe8\xb2\xbb\xe8\x80\x85\xe7\x9f\xa5\xe9\x81\x93\xe4\xb8\x80\xe5\x80\x8b\xe8\xa3\xbd\xe9\x80\xa0\xe5\x95\x86\xe5\x85\xb6\xe4\xb8\xad\xe4\xb8\x80\xe5\x80\x8b\xe7\x94\xa2\xe5\x93\x81\xe7\x9a\x84\xe4\xb8\x80\xe8\x88\xac\xe5'; replacing invalid characters, using '消費者知道一個製造商其中一個產品的一般\\xe5'
2024-05-27 21:07:18,053 : ERROR : failed to decode invalid unicode bytes b'\xce\xb9\xce\xb4\xce\xb9\xce\xbf\xce\xba\xcf\x84\xce\xb7\xcf\x83\xce\xaf\xce\xb1\xcf\x82\xce\x94\xce\xb9\xce\xb1\xce\xbc\xce\xad\xcf\x81\xce\xb9\xcf\x83\xce\xbc\xce\xb1\xce\x86\xcf\x84\xce\xbf\xce\xbc\xce\xb12\xce\xa5\xcf\x80\xce'; replacing invalid characters, using 'ιδιοκτησίαςΔιαμέρισμαΆτομα2Υπ\\xce'
2024-05-27 21:07:18,202 : ERROR : failed to decode invalid unicode bytes b'\xe6\x88\x96\xe5\x85\xb6\xe4\xbb\x96\xe5\xae\x98\xe6\x96\xb9\xe7\x82\xb9\xe8\xaf\x84\xe6\x94\xb6\xe9\x9b\x86\xe5\x90\x88\xe4\xbd\x9c\xe4\xbc\x99\xe4\xbc\xb4\xe6\x8f\x90\xe4\xbe\x9b\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7\xe9\xbc\x93\xe5'; replacing invalid characters, using '或其他官方点评收集合作伙伴提供的工具鼓\\xe5'
2024-05-27 21:07:18,245 : ERROR : failed to decode invalid unicode bytes b'00Z\xe6\x88\xbf\xe9\x96\x93\xe9\xa1\x9e\xe5\x9e\x8b\xe7\xa7\x81\xe4\xba\xba\xe6\x88\xbf\xe9\x96\x93\xe6\x88\xbf\xe6\xba\x90\xe9\xa1\x9e\xe5\x9e\x8b\xe5\xae\xb6\xe5\xba\xad\xe5\xbc\x8f\xe6\x97\x85\xe9\xa4\xa8\xe5\x8f\xaf\xe4'; replacing invalid characters, using '00Z房間類型私人房間房源類型家庭式旅館可\\xe4'
В конце концов на моем ноутбуке возникла ошибка памяти, и он сломался, что говорит о том, что мне не хватает оперативной памяти для этого, но в любом случае эта ошибка декодирования кажется мне настоящей китайской...Будет ли вышеизложенное каким-то образом работать, если я, например, обновлю оперативную память моего ноутбука?
Любые предложения будут ОГРОМНО признательны.

Подробнее здесь: https://stackoverflow.com/questions/785 ... g-gensim-d
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»