Версия Python
3.9.12 (основная, 4 апреля 2022 г., 05:22:27) [MSC v.1916 64 бит (AMD64)]
Информация о версии.
sys.version_info(major=3,minor=9, micro=12, Releaselevel='final', Serial=0)
В gensim 4.3.2. единственное, что мне помогло, это использование
Код: Выделить всё
import gensim.downloader as api
fasttext_model300 = api.load('fasttext-wiki-news-subwords-300')
Я также загрузил bin-файл для модели и попробовал:
Код: Выделить всё
from gensim.models import FastText as ft
fasttext_model=ft.load_fasttext_format('path/crawl-300d-2M-subword/crawl-300d-2M-subword.bin')
Код: Выделить всё
2024-05-27 21:07:10,790 : ERROR : failed to decode invalid unicode bytes b'DeutschHrvatskiEnglishDanskNederlandssuomiFran\xc3\xa7ais\xce\x95\xce\xbb\xce\xbb\xce'; replacing invalid characters, using 'DeutschHrvatskiEnglishDanskNederlandssuomiFrançaisΕλλ\\xce'
2024-05-27 21:07:12,269 : ERROR : failed to decode invalid unicode bytes b'\xe3\x81\x99\xe3\x81\xb9\xe3\x81\xa6\xe3\x81\xae\xe5\x9b\x9e\xe7\xad\x94\xe3\x82\x92\xe9\x9d\x9e\xe8\xa1\xa8\xe7\xa4\xba\xe3\x81\xab\xe3\x81\x99\xe3\x82\x8b\xe8\xb3\xaa\xe5\x95\x8f\xe3\x82\x92\xe5\x89\x8a\xe9\x99\xa4\xe3\x81\x97\xe3'; replacing invalid characters, using 'すべての回答を非表示にする質問を削除し\\xe3'
2024-05-27 21:07:13,692 : ERROR : failed to decode invalid unicode bytes b'00Z\xe9\x83\xa8\xe5\xb1\x8b\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe3\x81\xbe\xe3\x82\x8b\xe3\x81\xbe\xe3\x82\x8b\xe8\xb2\xb8\xe5\x88\x87\xe5\xbb\xba\xe7\x89\xa9\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe4\xb8\x80\xe8\xbb\x92\xe5'; replacing invalid characters, using '00Z部屋タイプまるまる貸切建物タイプ一軒\\xe5'
2024-05-27 21:07:13,734 : ERROR : failed to decode invalid unicode bytes b'2017\xe6\x88\xbf\xe9\x97\xb4\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe6\x88\xbf\xe9\x97\xb4\xe6\x88\xbf\xe6\xba\x90\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe5\xb1\x8b\xe5\x8f\xaf\xe4\xbd\x8f2\xe5\x8d'; replacing invalid characters, using '2017房间类型独立房间房源类型独立屋可住2\\xe5\\x8d'
2024-05-27 21:07:13,901 : ERROR : failed to decode invalid unicode bytes b'2016\xe6\x88\xbf\xe9\x97\xb4\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe6\x88\xbf\xe9\x97\xb4\xe6\x88\xbf\xe6\xba\x90\xe7\xb1\xbb\xe5\x9e\x8b\xe7\x8b\xac\xe7\xab\x8b\xe5\xb1\x8b\xe5\x8f\xaf\xe4\xbd\x8f2\xe5\x8d'; replacing invalid characters, using '2016房间类型独立房间房源类型独立屋可住2\\xe5\\x8d'
2024-05-27 21:07:15,714 : ERROR : failed to decode invalid unicode bytes b'00Z\xe9\x83\xa8\xe5\xb1\x8b\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe3\x81\xbe\xe3\x82\x8b\xe3\x81\xbe\xe3\x82\x8b\xe8\xb2\xb8\xe5\x88\x87\xe5\xbb\xba\xe7\x89\xa9\xe3\x82\xbf\xe3\x82\xa4\xe3\x83\x97\xe5\x88\xa5\xe8\x8d\x98\xe5'; replacing invalid characters, using '00Z部屋タイプまるまる貸切建物タイプ別荘\\xe5'
2024-05-27 21:07:17,849 : ERROR : failed to decode invalid unicode bytes b'\xe6\xb6\x88\xe8\xb2\xbb\xe8\x80\x85\xe7\x9f\xa5\xe9\x81\x93\xe4\xb8\x80\xe5\x80\x8b\xe8\xa3\xbd\xe9\x80\xa0\xe5\x95\x86\xe5\x85\xb6\xe4\xb8\xad\xe4\xb8\x80\xe5\x80\x8b\xe7\x94\xa2\xe5\x93\x81\xe7\x9a\x84\xe4\xb8\x80\xe8\x88\xac\xe5'; replacing invalid characters, using '消費者知道一個製造商其中一個產品的一般\\xe5'
2024-05-27 21:07:18,053 : ERROR : failed to decode invalid unicode bytes b'\xce\xb9\xce\xb4\xce\xb9\xce\xbf\xce\xba\xcf\x84\xce\xb7\xcf\x83\xce\xaf\xce\xb1\xcf\x82\xce\x94\xce\xb9\xce\xb1\xce\xbc\xce\xad\xcf\x81\xce\xb9\xcf\x83\xce\xbc\xce\xb1\xce\x86\xcf\x84\xce\xbf\xce\xbc\xce\xb12\xce\xa5\xcf\x80\xce'; replacing invalid characters, using 'ιδιοκτησίαςΔιαμέρισμαΆτομα2Υπ\\xce'
2024-05-27 21:07:18,202 : ERROR : failed to decode invalid unicode bytes b'\xe6\x88\x96\xe5\x85\xb6\xe4\xbb\x96\xe5\xae\x98\xe6\x96\xb9\xe7\x82\xb9\xe8\xaf\x84\xe6\x94\xb6\xe9\x9b\x86\xe5\x90\x88\xe4\xbd\x9c\xe4\xbc\x99\xe4\xbc\xb4\xe6\x8f\x90\xe4\xbe\x9b\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7\xe9\xbc\x93\xe5'; replacing invalid characters, using '或其他官方点评收集合作伙伴提供的工具鼓\\xe5'
2024-05-27 21:07:18,245 : ERROR : failed to decode invalid unicode bytes b'00Z\xe6\x88\xbf\xe9\x96\x93\xe9\xa1\x9e\xe5\x9e\x8b\xe7\xa7\x81\xe4\xba\xba\xe6\x88\xbf\xe9\x96\x93\xe6\x88\xbf\xe6\xba\x90\xe9\xa1\x9e\xe5\x9e\x8b\xe5\xae\xb6\xe5\xba\xad\xe5\xbc\x8f\xe6\x97\x85\xe9\xa4\xa8\xe5\x8f\xaf\xe4'; replacing invalid characters, using '00Z房間類型私人房間房源類型家庭式旅館可\\xe4'
Любые предложения будут ОГРОМНО признательны.
Подробнее здесь: https://stackoverflow.com/questions/785 ... g-gensim-d