Модель Берта разделяет слова самостоятельноPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Модель Берта разделяет слова самостоятельно

Сообщение Anonymous »

Я маркирую входные слова, используя модель Берта.
Код:

Код: Выделить всё

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False)
model = BertModel.from_pretrained("bert-base-multilingual-cased", add_pooling_layer=False, output_hidden_states=True, output_attentions=True)

marked_text =  text + " [SEP]"
tokenized_text = tokenizer.tokenize(marked_text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
print(tokenized_text)
print(indexed_tokens)
Модель, которую я использовал, взята из HuggingFace.
Моя цель — напечатать встроенные векторы всех слов, которые есть в модели Берта, поэтому я поискал и нашел что в этой модели доступно 119296 токенов.
Я не знаю, такое количество токенов является причиной, но модель разбивает слова самостоятельно, что для меня нежелательно.
для пример,

Код: Выделить всё

only -> [only]
ONLY -> [ON,L,Y]

stradivarius -> ['St', '##radi', '##vari', '##us']
Это естественно для Берта или я делаю что-то неправильно?

Подробнее здесь: https://stackoverflow.com/questions/762 ... by-its-own
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»