Преобразование медленного токенизатора HuggingFace в быстрый токенизатор

Преобразование медленного токенизатора HuggingFace в быстрый токенизатор ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Преобразование медленного токенизатора HuggingFace в быстрый токенизатор

Цитата

Сообщение Anonymous » 09 окт 2024, 15:02

У меня есть модель, обученная на диск с помощью медленного токенизатора:

Код: Выделить всё

from transformers import convert_slow_tokenizer
from transformers import BertTokenizer, BertForSequenceClassificationa

mybert = BertForSequenceClassification.from_pretrained(PATH,
local_files_only=True,
)
tokenizer = BertTokenizer.from_pretrained(PATH,
local_files_only=True,
use_fast=True)

Я могу использовать его для токенизации следующим образом:

Код: Выделить всё

tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)

Однако это небыстро:

Код: Выделить всё

tokenized_example.is_fast
False

Я пытаюсь преобразовать его в быстрый, и это выглядит успешно

Код: Выделить всё

tokenizer = convert_slow_tokenizer.convert_slow_tokenizer(tokenizer)

Однако теперь это дает мне:

Код: Выделить всё

tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)

TypeError: 'tokenizers.Tokenizer' object is not callable

Как преобразовать этот медленный токенизатор в быстрый?
Я видел этот ответ, и у меня установлен фрагмент предложения — этого не произошло исправьте мою проблему.

Подробнее здесь: https://stackoverflow.com/questions/709 ... -tokenizer

1728475375

Anonymous

У меня есть модель, обученная на диск с помощью медленного токенизатора:
[code]from transformers import convert_slow_tokenizer
from transformers import BertTokenizer, BertForSequenceClassificationa

mybert = BertForSequenceClassification.from_pretrained(PATH,
local_files_only=True,
)
tokenizer = BertTokenizer.from_pretrained(PATH,
local_files_only=True,
use_fast=True)
[/code]
Я могу использовать его для токенизации следующим образом:
[code]tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)
[/code]
Однако это небыстро:
[code]tokenized_example.is_fast
False
[/code]
Я пытаюсь преобразовать его в быстрый, и это выглядит успешно
[code]tokenizer = convert_slow_tokenizer.convert_slow_tokenizer(tokenizer)
[/code]
Однако теперь это дает мне:
[code]tokenized_example = tokenizer(
mytext,
max_length=100,
truncation="only_second",
return_overflowing_tokens=True,
stride=50
)

TypeError: 'tokenizers.Tokenizer' object is not callable
[/code]
Как преобразовать этот медленный токенизатор в быстрый?
Я видел этот ответ, и у меня установлен фрагмент предложения — этого не произошло исправьте мою проблему. 

Подробнее здесь: [url]https://stackoverflow.com/questions/70946278/convert-huggingface-slow-tokenizer-to-a-fast-tokenizer[/url]