Код:
Код: Выделить всё
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False)
model = BertModel.from_pretrained("bert-base-multilingual-cased", add_pooling_layer=False, output_hidden_states=True, output_attentions=True)
marked_text = text + " [SEP]"
tokenized_text = tokenizer.tokenize(marked_text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
print(tokenized_text)
print(indexed_tokens)
Моя цель — напечатать встроенные векторы всех слов, которые есть в модели Берта, поэтому я поискал и нашел что в этой модели доступно 119296 токенов.
Я не знаю, такое количество токенов является причиной, но модель разбивает слова самостоятельно, что для меня нежелательно.
для пример,
Код: Выделить всё
only -> [only]
ONLY -> [ON,L,Y]
stradivarius -> ['St', '##radi', '##vari', '##us']
Подробнее здесь: https://stackoverflow.com/questions/762 ... by-its-own