Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводе

Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводе ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводе

Цитата

Сообщение Anonymous » 02 май 2025, 16:43

Итак, я обучил токенизатор с нуля, используя библиотеку Tokenizers Huggingface (не Autotokenizer.from_pretraind, но на самом деле обучил новый). Казалось, все прошло, без ошибок. Но когда я пытаюсь использовать его во время вывода, он разбивает слова в странных местах. Даже довольно распространенные такие, как «Awesome» или «ужасный», в конечном итоге разделены на несколько подчинок, такие как AW, ## ES, ## OME и т. Д.

Код: Выделить всё

from tokenizers import BertWordPieceTokenizer

files = ["data.txt"]  #contians one text per line

tokenizer = BertWordPieceTokenizer(lowercase=True)
tokenizer.train(files=files, vocab_size=3000, min_frequency=2, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])
tokenizer.save_model("my_tokenizer")

< /code>
И вот как я его использую позже: < /p>
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("my_tokenizer")

text = "this movie was awesome and I loved the acting"
tokens = tokenizer.tokenize(text)
print(tokens)

< /code>
, что дает мне:
['this', 'movie', 'was', 'aw', '##es', '##ome', 'and', 'i', 'loved', 'the', 'acting']

Так нравится ... почему «потрясающий» расщепляется на 3 токена? Это слово появляется в учебном файле несколько раз, определенно больше, чем min_frectory of 2. Я даже проверил файл Vocab, и я не вижу «удивительного» как полный токен там.
Я пытался:
Увеличивающе /> Выключение строчного < /p>
Проверка Vocab.txt, до сих пор нет полных слов, которые я ожидаю < /p>
Может быть, я неправильно понимаю, как токенизатор изучает или строит свой слова? Или что -то я делаю не так во время обучения? Это просто список простых предложений, таких как: < /p>

Код: Выделить всё

this movie was awesome
terrible film
acting was good
i loved it

оценил бы любые идеи, не уверен, что это ожидаемое поведение или я что -то испортил в том, как я их обучаю.

Подробнее здесь: https://stackoverflow.com/questions/796 ... at-inferen

1746193405

Anonymous

 Итак, я обучил токенизатор с нуля, используя библиотеку Tokenizers Huggingface (не Autotokenizer.from_pretraind, но на самом деле обучил новый). Казалось, все прошло, без ошибок. Но когда я пытаюсь использовать его во время вывода, он разбивает слова в странных местах. Даже довольно распространенные такие, как «Awesome» или «ужасный», в конечном итоге разделены на несколько подчинок, такие как AW, ## ES, ## OME и т. Д.[code]from tokenizers import BertWordPieceTokenizer

files = ["data.txt"]  #contians one text per line

tokenizer = BertWordPieceTokenizer(lowercase=True)
tokenizer.train(files=files, vocab_size=3000, min_frequency=2, special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"])
tokenizer.save_model("my_tokenizer")

< /code>
И вот как я его использую позже: < /p>
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("my_tokenizer")

text = "this movie was awesome and I loved the acting"
tokens = tokenizer.tokenize(text)
print(tokens)

< /code>
, что дает мне:
['this', 'movie', 'was', 'aw', '##es', '##ome', 'and', 'i', 'loved', 'the', 'acting'][/code] 
Так нравится ... почему «потрясающий» расщепляется на 3 токена? Это слово появляется в учебном файле несколько раз, определенно больше, чем min_frectory of 2. Я даже проверил файл Vocab, и я не вижу «удивительного» как полный токен там. 
Я пытался: 
Увеличивающе />  Выключение строчного < /p>
Проверка Vocab.txt, до сих пор нет полных слов, которые я ожидаю < /p>
Может быть, я неправильно понимаю, как токенизатор изучает или строит свой слова? Или что -то я делаю не так во время обучения? Это просто список простых предложений, таких как: < /p>
[code]this movie was awesome
terrible film
acting was good
i loved it

[/code]
оценил бы любые идеи, не уверен, что это ожидаемое поведение или я что -то испортил в том, как я их обучаю.  

Подробнее здесь: [url]https://stackoverflow.com/questions/79603499/training-a-custom-tokenizer-with-huggingface-gives-weird-token-splits-at-inferen[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обучение пользовательского токенизатора с HuggingFace дает странные расщепления токенов при выводе

Последнее сообщение Anonymous « 02 май 2025, 17:19
Добавлено в форуме Python

Anonymous » 02 май 2025, 17:19 » в форуме Python

Итак, я обучил токенизатор с нуля, используя библиотеку Tokenizers Huggingface (не Autotokenizer.from_pretraind, но на самом деле обучил новый). Казалось, все прошло, без ошибок. Но когда я пытаюсь использовать его во время вывода, он разбивает...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
02 май 2025, 17:19
Преобразование медленного токенизатора HuggingFace в быстрый токенизатор

Последнее сообщение Anonymous « 09 окт 2024, 15:02
Добавлено в форуме Python

Anonymous » 09 окт 2024, 15:02 » в форуме Python

У меня есть модель, обученная на диск с помощью медленного токенизатора:
from transformers import convert_slow_tokenizer
from transformers import BertTokenizer, BertForSequenceClassificationa

mybert =...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 15:02
Преобразование токенизатора HuggingFace в слой TensorFlow Keras

Последнее сообщение Anonymous « 21 окт 2024, 13:27
Добавлено в форуме Python

Anonymous » 21 окт 2024, 13:27 » в форуме Python

Я изо всех сил пытаюсь понять, как выполнить вывод с помощью предварительно обученной модели HuggingFace, загруженной как модель TensorFlow Keras.
Контекст В моем случае я пытаюсь настроить предварительно обученный классификатор DistilBert. У меня...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 13:27
Преобразование токенизатора HuggingFace в TensorFlow керас слой

Последнее сообщение Anonymous « 10 апр 2025, 03:03
Добавлено в форуме Python

Anonymous » 10 апр 2025, 03:03 » в форуме Python

Я изо всех сил пытаюсь понять, как сделать вывод с предварительно обученной моделью Huggingface, загруженной как модель Tensorflow Keras. У меня есть что -то следующим образом, чтобы предварительно обрабатывать мои данные и загружать/тренировать мою...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
10 апр 2025, 03:03
Преобразование токенизатора HuggingFace в TensorFlow керас слой

Последнее сообщение Anonymous « 10 апр 2025, 04:16
Добавлено в форуме Python

Anonymous » 10 апр 2025, 04:16 » в форуме Python

Я изо всех сил пытаюсь понять, как сделать вывод с предварительно обученной моделью Huggingface, загруженной как модель Tensorflow Keras. У меня есть что -то следующим образом, чтобы предварительно обрабатывать мои данные и загружать/тренировать мою...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
10 апр 2025, 04:16

Вернуться в «Python»