Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводеPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводе

Сообщение Anonymous »

Итак, я обучил токенизатор с нуля, используя библиотеку Tokenizers Huggingface (не Autotokenizer.from_pretraind, но на самом деле обучил новый). Казалось, все прошло, без ошибок. Но когда я пытаюсь использовать его во время вывода, он разбивает слова в странных местах. Даже довольно распространенные такие, как «Awesome» или «ужасный», в конечном итоге разделены на несколько подчинок, такие как AW, ## ES, ## OME и т. Д.

Код: Выделить всё

from tokenizers import BertWordPieceTokenizer

files = ["data.txt"]  #contians one text per line

tokenizer = BertWordPieceTokenizer(lowercase=True)
tokenizer.train(files=files, vocab_size=3000, min_frequency=2, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])
tokenizer.save_model("my_tokenizer")

< /code>
И вот как я его использую позже: < /p>
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("my_tokenizer")

text = "this movie was awesome and I loved the acting"
tokens = tokenizer.tokenize(text)
print(tokens)

< /code>
, что дает мне:
['this', 'movie', 'was', 'aw', '##es', '##ome', 'and', 'i', 'loved', 'the', 'acting']

Так нравится ... почему «потрясающий» расщепляется на 3 токена? Это слово появляется в учебном файле несколько раз, определенно больше, чем min_frectory of 2. Я даже проверил файл Vocab, и я не вижу «удивительного» как полный токен там.
Я пытался:
Увеличивающе /> Выключение строчного < /p>
Проверка Vocab.txt, до сих пор нет полных слов, которые я ожидаю < /p>
Может быть, я неправильно понимаю, как токенизатор изучает или строит свой слова? Или что -то я делаю не так во время обучения? Это просто список простых предложений, таких как: < /p>

Код: Выделить всё

this movie was awesome
terrible film
acting was good
i loved it

оценил бы любые идеи, не уверен, что это ожидаемое поведение или я что -то испортил в том, как я их обучаю.

Подробнее здесь: https://stackoverflow.com/questions/796 ... at-inferen
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводе
    Anonymous » » в форуме Python
    0 Ответы
    5 Просмотры
    Последнее сообщение Anonymous
  • Преобразование медленного токенизатора HuggingFace в быстрый токенизатор
    Anonymous » » в форуме Python
    0 Ответы
    16 Просмотры
    Последнее сообщение Anonymous
  • Преобразование токенизатора HuggingFace в слой TensorFlow Keras
    Anonymous » » в форуме Python
    0 Ответы
    7 Просмотры
    Последнее сообщение Anonymous
  • Преобразование токенизатора HuggingFace в TensorFlow керас слой
    Anonymous » » в форуме Python
    0 Ответы
    6 Просмотры
    Последнее сообщение Anonymous
  • Преобразование токенизатора HuggingFace в TensorFlow керас слой
    Anonymous » » в форуме Python
    0 Ответы
    7 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»