Модель Берта разделяет слова самостоятельно

Модель Берта разделяет слова самостоятельно ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Модель Берта разделяет слова самостоятельно

Цитата

Сообщение Anonymous » 17 дек 2024, 13:04

Я маркирую входные слова, используя модель Берта.
Код:

Код: Выделить всё

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False)
model = BertModel.from_pretrained("bert-base-multilingual-cased", add_pooling_layer=False, output_hidden_states=True, output_attentions=True)

marked_text =  text + " [SEP]"
tokenized_text = tokenizer.tokenize(marked_text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
print(tokenized_text)
print(indexed_tokens)

Модель, которую я использовал, взята из HuggingFace.
Моя цель — напечатать встроенные векторы всех слов, которые есть в модели Берта, поэтому я поискал и нашел что в этой модели доступно 119296 токенов.
Я не знаю, такое количество токенов является причиной, но модель разбивает слова самостоятельно, что для меня нежелательно.
для пример,

Код: Выделить всё

only -> [only]
ONLY -> [ON,L,Y]

stradivarius -> ['St', '##radi', '##vari', '##us']

Это естественно для Берта или я делаю что-то неправильно?

Подробнее здесь: https://stackoverflow.com/questions/762 ... by-its-own

1734429856

Anonymous

Я маркирую входные слова, используя модель Берта.
Код:
[code]tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased',do_lower_case = False)
model = BertModel.from_pretrained("bert-base-multilingual-cased", add_pooling_layer=False, output_hidden_states=True, output_attentions=True)

marked_text =  text + " [SEP]"
tokenized_text = tokenizer.tokenize(marked_text)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
print(tokenized_text)
print(indexed_tokens)
[/code]
Модель, которую я использовал, взята из HuggingFace.
Моя цель — напечатать встроенные векторы всех слов, которые есть в модели Берта, поэтому я поискал и нашел что в этой модели доступно 119296 токенов.
Я не знаю, такое количество токенов является причиной, но модель разбивает слова самостоятельно, что для меня нежелательно.
для пример,
[code]
only -> [only]
ONLY -> [ON,L,Y]

stradivarius -> ['St', '##radi', '##vari', '##us']
[/code]
Это естественно для Берта или я делаю что-то неправильно? 

Подробнее здесь: [url]https://stackoverflow.com/questions/76238212/bert-model-splits-words-by-its-own[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Модель Берта не учится с использованием JAX. Результаты не меняются

Последнее сообщение Anonymous « 24 янв 2025, 11:33
Добавлено в форуме Python

Anonymous » 24 янв 2025, 11:33 » в форуме Python

Я обучаю модель BERT классификации спама с использованием JAX на TPU. Моя модель не обучалась, и ее результаты не изменились.
Epoch 0: Train Loss = 2.7961559295654297: Train Accuracy: 0.30608975887298584 Eval Loss = 3.6600053310394287: Eval...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
24 янв 2025, 11:33
Сохраните обновленные веса/размеры для предварительно обученной модели Берта (думаю, я правильно спрашиваю)

Последнее сообщение Anonymous « 05 ноя 2024, 01:53
Добавлено в форуме Python

Anonymous » 05 ноя 2024, 01:53 » в форуме Python

Я новичок в машинном обучении, поэтому прошу прощения, если это не совсем понятно, но я постараюсь быть максимально кратким.
Я настраиваю предварительно обученную модель BERT, в частности «без оболочки на основе bert», и частью этого было обновление...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
05 ноя 2024, 01:53
Модели Берта показывают статистику токенизации

Последнее сообщение Anonymous « 09 ноя 2024, 01:46
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 01:46 » в форуме Python

Есть ли какой-либо встроенный способ запроса статистики токенизации при использовании BertTokenizer.from_pretrained('bert-base-uncased') и BertModel.from_pretrained('bert-base-uncased'), чтобы понять, насколько эффективно обрабатываются мои тексты...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 01:46
Ранняя остановка в инстансах Берта Трейнера

Последнее сообщение Anonymous « 23 ноя 2024, 10:25
Добавлено в форуме Python

Anonymous » 23 ноя 2024, 10:25 » в форуме Python

Я настраиваю модель BERT для задачи многоклассовой классификации. Моя проблема в том, что я не знаю, как добавить «раннюю остановку» к этим экземплярам Trainer. Есть идеи?

Подробнее здесь:

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
23 ноя 2024, 10:25
Как правильно сохранить и загрузить вложенную модель keras (модель, содержащую другую модель, переданную в качестве аргу

Последнее сообщение Anonymous « 21 янв 2025, 20:10
Добавлено в форуме Python

Anonymous » 21 янв 2025, 20:10 » в форуме Python

Я работаю над сохранением и загрузкой вложенной модели Keras, где внутренняя модель передается в качестве аргумента внешней модели. Код сохраняет модель без проблем, но когда я ее загружаю, восстанавливаются только слои внешней модели. Внутренняя...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
21 янв 2025, 20:10

Вернуться в «Python»