Преобразование медленного токенизатора HuggingFace в быстрый токенизаторPython

Программы на Python
Ответить
Anonymous
 Преобразование медленного токенизатора HuggingFace в быстрый токенизатор

Сообщение Anonymous »

У меня есть модель, обученная на диск с помощью медленного токенизатора:

Код: Выделить всё

from transformers import convert_slow_tokenizer
from transformers import BertTokenizer, BertForSequenceClassificationa

mybert = BertForSequenceClassification.from_pretrained(PATH,
local_files_only=True,
)
tokenizer = BertTokenizer.from_pretrained(PATH,
local_files_only=True,
use_fast=True)
Я могу использовать его для токенизации следующим образом:

Код: Выделить всё

tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)
Однако это небыстро:

Код: Выделить всё

tokenized_example.is_fast
False
Я пытаюсь преобразовать его в быстрый, и это выглядит успешно

Код: Выделить всё

tokenizer = convert_slow_tokenizer.convert_slow_tokenizer(tokenizer)
Однако теперь это дает мне:

Код: Выделить всё

tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)

TypeError: 'tokenizers.Tokenizer' object is not callable
Как преобразовать этот медленный токенизатор в быстрый?
Я видел этот ответ, и у меня установлен фрагмент предложения — этого не произошло исправьте мою проблему.

Подробнее здесь: https://stackoverflow.com/questions/709 ... -tokenizer
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»