Модели трансформаторов HuggingFaceface: Keyerror: Сообщение «input_ids» в начале обучения модели BERT

Модели трансформаторов HuggingFaceface: Keyerror: Сообщение «input_ids» в начале обучения модели BERT ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Модели трансформаторов HuggingFaceface: Keyerror: Сообщение «input_ids» в начале обучения модели BERT

Цитата

Сообщение Anonymous » 07 июн 2025, 02:05

Используя библиотеку Trangingface Transformer, я сталкиваюсь с ошибкой на последнем шаге, когда я иду, чтобы настроить модель языка BERT для задачи моделирования языка в масках. Я хочу точно настроить его для корпуса доменного финансирования, который модель еще не была обучена. Тем не менее, я получаю следующее сообщение об ошибке, когда я вызываю модель для обучения: Keyerror: 'input_ids'. Ниже приведены шаги и код, который я сделал. Любые идеи ценятся!unlabelled_dataset = Dataset.from_pandas(unlabelled)
< /code>
Во -вторых, я затем токенил набор данных со следующим кодом: 
tokenizerBERT = BertTokenizerFast.from_pretrained('bert-base-uncased') #BERT model tokenization & check
tokenizerBERT(unlabelled_dataset['paragraphs'], padding=True, truncation=True)
tokenizerBERT.save_pretrained('tokenizers/pytorch/labelled/BERT/')
< /code>
В -третьих, я создал коллекцию данных в соответствии с инструкциями: 
data_collator_BERT = DataCollatorForLanguageModeling(tokenizer=tokenizerBERT, mlm=True, mlm_probability=0.15)
< /code>
Далее я выбираю свою модель From_pretrained, чтобы получить преимущества обучения передачи: 
model_BERT = BertForMaskedLM.from_pretrained("bert-base-uncased")
< /code>
Далее я передал свой обучение ARGS Transformer Trainer и инициализировать: 
training_args_BERT = TrainingArguments(
output_dir="./BERT",
num_train_epochs=10,
evaluation_strategy='steps',
warmup_steps=10000,
weight_decay=0.01,
per_gpu_train_batch_size=64,
)

trainer_BERT = Trainer(
model=model_BERT,
args=training_args_BERT,
data_collator=data_collator_BERT,
train_dataset=unlabelled_dataset,
)
< /code>
Последнее, я называю модель для обучения и получаю ошибку keeerr: 'input_ids' 
trainer_BERT.train()
< /code>
Любое понимание того, как отладить этот подход к обучению модели?---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
in
----> 1 trainer_BERT.train()
2 trainer.save_model("./models/royalBERT")

~/anaconda3/lib/python3.7/site-packages/transformers/trainer.py in train(self, model_path, trial)
755 self.control = self.callback_handler.on_epoch_begin(self.args, self.state, self.control)
756
--> 757 for step, inputs in enumerate(epoch_iterator):
758
759 # Skip past any already trained steps if resuming training

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/dataloader.py in __next__(self)
361
362 def __next__(self):
--> 363 data = self._next_data()
364 self._num_yielded += 1
365 if self._dataset_kind == _DatasetKind.Iterable and \

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/dataloader.py in _next_data(self)
401 def _next_data(self):
402 index = self._next_index() # may raise StopIteration
--> 403 data = self._dataset_fetcher.fetch(index) # may raise StopIteration
404 if self._pin_memory:
405 data = _utils.pin_memory.pin_memory(data)

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/_utils/fetch.py in fetch(self, possibly_batched_index)
45 else:
46 data = self.dataset[possibly_batched_index]
---> 47 return self.collate_fn(data)

~/anaconda3/lib/python3.7/site-packages/transformers/data/data_collator.py in __call__(self, examples)
193 ) -> Dict[str, torch.Tensor]:
194 if isinstance(examples[0], (dict, BatchEncoding)):
--> 195 examples = [e["input_ids"] for e in examples]
196 batch = self._tensorize_batch(examples)
197 if self.mlm:

~/anaconda3/lib/python3.7/site-packages/transformers/data/data_collator.py in (.0)
193 ) -> Dict[str, torch.Tensor]:
194 if isinstance(examples[0], (dict, BatchEncoding)):
--> 195 examples = [e["input_ids"] for e in examples]
196 batch = self._tensorize_batch(examples)
197 if self.mlm:

KeyError: 'input_ids'

Подробнее здесь: https://stackoverflow.com/questions/649 ... ning-of-be

1749251105

Anonymous

 Используя библиотеку Trangingface Transformer, я сталкиваюсь с ошибкой на последнем шаге, когда я иду, чтобы настроить модель языка BERT для задачи моделирования языка в масках.  Я хочу точно настроить его для корпуса доменного финансирования, который модель еще не была обучена.  Тем не менее, я получаю следующее сообщение об ошибке, когда я вызываю модель для обучения: Keyerror: 'input_ids'.  Ниже приведены шаги и код, который я сделал.  Любые идеи ценятся!unlabelled_dataset = Dataset.from_pandas(unlabelled)
< /code>
Во -вторых, я затем токенил набор данных со следующим кодом: < /p>
tokenizerBERT = BertTokenizerFast.from_pretrained('bert-base-uncased')  #BERT model tokenization & check
tokenizerBERT(unlabelled_dataset['paragraphs'], padding=True, truncation=True)
tokenizerBERT.save_pretrained('tokenizers/pytorch/labelled/BERT/')
< /code>
В -третьих, я создал коллекцию данных в соответствии с инструкциями: < /p>
data_collator_BERT = DataCollatorForLanguageModeling(tokenizer=tokenizerBERT, mlm=True, mlm_probability=0.15)
< /code>
Далее я выбираю свою модель From_pretrained, чтобы получить преимущества обучения передачи: < /p>
model_BERT = BertForMaskedLM.from_pretrained("bert-base-uncased")
< /code>
Далее я передал свой обучение ARGS Transformer Trainer и инициализировать: < /p>
training_args_BERT = TrainingArguments(
output_dir="./BERT",
num_train_epochs=10,
evaluation_strategy='steps',
warmup_steps=10000,
weight_decay=0.01,
per_gpu_train_batch_size=64,
)

trainer_BERT = Trainer(
model=model_BERT,
args=training_args_BERT,
data_collator=data_collator_BERT,
train_dataset=unlabelled_dataset,
)
< /code>
Последнее, я называю модель для обучения и получаю ошибку keeerr: 'input_ids' < /p>
trainer_BERT.train()
< /code>
Любое понимание того, как отладить этот подход к обучению модели?---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
 in 
----> 1 trainer_BERT.train()
2 trainer.save_model("./models/royalBERT")

~/anaconda3/lib/python3.7/site-packages/transformers/trainer.py in train(self, model_path, trial)
755             self.control = self.callback_handler.on_epoch_begin(self.args, self.state, self.control)
756
--> 757             for step, inputs in enumerate(epoch_iterator):
758
759                 # Skip past any already trained steps if resuming training

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/dataloader.py in __next__(self)
361
362     def __next__(self):
--> 363         data = self._next_data()
364         self._num_yielded += 1
365         if self._dataset_kind == _DatasetKind.Iterable and \

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/dataloader.py in _next_data(self)
401     def _next_data(self):
402         index = self._next_index()  # may raise StopIteration
--> 403         data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
404         if self._pin_memory:
405             data = _utils.pin_memory.pin_memory(data)

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/_utils/fetch.py in fetch(self, possibly_batched_index)
45         else:
46             data = self.dataset[possibly_batched_index]
---> 47         return self.collate_fn(data)

~/anaconda3/lib/python3.7/site-packages/transformers/data/data_collator.py in __call__(self, examples)
193     ) -> Dict[str, torch.Tensor]:
194         if isinstance(examples[0], (dict, BatchEncoding)):
--> 195             examples = [e["input_ids"] for e in examples]
196         batch = self._tensorize_batch(examples)
197         if self.mlm:

~/anaconda3/lib/python3.7/site-packages/transformers/data/data_collator.py in (.0)
193     ) -> Dict[str, torch.Tensor]:
194         if isinstance(examples[0], (dict, BatchEncoding)):
--> 195             examples = [e["input_ids"] for e in examples]
196         batch = self._tensorize_batch(examples)
197         if self.mlm:

KeyError: 'input_ids'
 

Подробнее здесь: [url]https://stackoverflow.com/questions/64911499/huggingface-transformer-models-keyerror-input-ids-message-at-beginning-of-be[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Модели трансформаторов HuggingFaceface: Keyerror: Сообщение «input_ids» в начале обучения модели BERT

Последнее сообщение Anonymous « 06 фев 2025, 17:08
Добавлено в форуме Python

Anonymous » 06 фев 2025, 17:08 » в форуме Python

Используя библиотеку Trangingface Transformer, я сталкиваюсь с ошибкой на последнем шаге, когда я иду, чтобы настроить модель языка BERT для задачи моделирования языка в масках. Я хочу точно настроить его для корпуса доменного финансирования,...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
06 фев 2025, 17:08
Модели трансформаторов HuggingFaceface: Keyerror: Сообщение «input_ids» в начале обучения модели BERT

Последнее сообщение Anonymous « 07 июн 2025, 02:05
Добавлено в форуме Python

Anonymous » 07 июн 2025, 02:05 » в форуме Python

Используя библиотеку Trangingface Transformer, я сталкиваюсь с ошибкой на последнем шаге, когда я иду, чтобы настроить модель языка BERT для задачи моделирования языка в масках. Я хочу точно настроить его для корпуса доменного финансирования,...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
07 июн 2025, 02:05
Модели трансформаторов Huggingface: KeyError: сообщение «input_ids» в начале обучения модели BERT

Последнее сообщение Anonymous « 09 окт 2024, 10:06
Добавлено в форуме Python

Anonymous » 09 окт 2024, 10:06 » в форуме Python

При использовании библиотеки преобразователей Huggingface я столкнулся с ошибкой на последнем этапе тонкой настройки языковой модели BERT для задачи моделирования языка в маске. Я хочу точно настроить его для корпуса финансов в предметной области,...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 10:06
P = int (input ("Введите 1 -е число:")) t = int (input ("Введите 2 -е число:")) s = int (input ()) si = (p*t*s)/10 print

Последнее сообщение Anonymous « 07 июн 2025, 16:38
Добавлено в форуме Python

Anonymous » 07 июн 2025, 16:38 » в форуме Python

onedrive /desktop /python prog /type.py /type1
traceback (самый последний вызов последний):
file c: \ users \ sai krishna \ onedrive \ desktop \ python prog \ type.py \ type1 , линия 1, в
p = int ( enter 1st №: )
interror

Подробнее здесь:

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
07 июн 2025, 16:38
P = int (input ("Введите 1 -е число:")) t = int (input ("Введите 2 -е число:")) s = int (input ()) si = (p*t*s)/10 print

Последнее сообщение Anonymous « 07 июн 2025, 21:04
Добавлено в форуме Python

Anonymous » 07 июн 2025, 21:04 » в форуме Python

OneDrive/Desktop/python prog/type.py/type1
Traceback (most recent call last):
File c:\Users\Sai Krishna\OneDrive\Desktop\python prog\type.py\type1 , line 1, in
p=int(input( enter 1st number: ))
ValueError: invalid literal for int() with base 10:...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
07 июн 2025, 21:04

Вернуться в «Python»