Модели трансформаторов Huggingface: KeyError: сообщение «input_ids» в начале обучения модели BERTPython

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Модели трансформаторов Huggingface: KeyError: сообщение «input_ids» в начале обучения модели BERT

Сообщение Anonymous »

При использовании библиотеки преобразователей Huggingface я столкнулся с ошибкой на последнем этапе тонкой настройки языковой модели BERT для задачи моделирования языка в маске. Я хочу точно настроить его для корпуса финансов в предметной области, на котором эта модель еще не была обучена. Однако при вызове модели для обучения я получаю следующее сообщение об ошибке: KeyError: 'input_ids'. Ниже приведены шаги и код, который я предпринял. Любая информация приветствуется!
Сначала я создал объект набора данных из кадра данных pandas, который, в свою очередь, был создан из файла csv с одним столбцом из многих строк текста:unlabelled_dataset = Dataset.from_pandas(unlabelled)

Во-вторых, я токенизировал набор данных с помощью следующего кода:
tokenizerBERT = BertTokenizerFast.from_pretrained('bert-base-uncased') #BERT model tokenization & check
tokenizerBERT(unlabelled_dataset['paragraphs'], padding=True, truncation=True)
tokenizerBERT.save_pretrained('tokenizers/pytorch/labelled/BERT/')

В-третьих, я создал сопоставление данных в соответствии с инструкциями:
data_collator_BERT = DataCollatorForLanguageModeling(tokenizer=tokenizerBERT, mlm=True, mlm_probability=0.15)

Далее я выбираю модель from_pretrained, чтобы воспользоваться преимуществами трансферного обучения:
model_BERT = BertForMaskedLM.from_pretrained("bert-base-uncased")

Далее я передал аргументы обучения тренеру-трансформеру и инициализировал:
training_args_BERT = TrainingArguments(
output_dir="./BERT",
num_train_epochs=10,
evaluation_strategy='steps',
warmup_steps=10000,
weight_decay=0.01,
per_gpu_train_batch_size=64,
)

trainer_BERT = Trainer(
model=model_BERT,
args=training_args_BERT,
data_collator=data_collator_BERT,
train_dataset=unlabelled_dataset,
)

Последнее я вызываю модель для обучения и получаю ошибку KeyError: 'input_ids'
trainer_BERT.train()

Есть какие-нибудь идеи о том, как отладить этот подход к обучению модели?
Ниже представлено точное полученное сообщение об ошибке:
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
in
----> 1 trainer_BERT.train()
2 trainer.save_model("./models/royalBERT")

~/anaconda3/lib/python3.7/site-packages/transformers/trainer.py in train(self, model_path, trial)
755 self.control = self.callback_handler.on_epoch_begin(self.args, self.state, self.control)
756
--> 757 for step, inputs in enumerate(epoch_iterator):
758
759 # Skip past any already trained steps if resuming training

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/dataloader.py in __next__(self)
361
362 def __next__(self):
--> 363 data = self._next_data()
364 self._num_yielded += 1
365 if self._dataset_kind == _DatasetKind.Iterable and \

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/dataloader.py in _next_data(self)
401 def _next_data(self):
402 index = self._next_index() # may raise StopIteration
--> 403 data = self._dataset_fetcher.fetch(index) # may raise StopIteration
404 if self._pin_memory:
405 data = _utils.pin_memory.pin_memory(data)

~/anaconda3/lib/python3.7/site-packages/torch/utils/data/_utils/fetch.py in fetch(self, possibly_batched_index)
45 else:
46 data = self.dataset[possibly_batched_index]
---> 47 return self.collate_fn(data)

~/anaconda3/lib/python3.7/site-packages/transformers/data/data_collator.py in __call__(self, examples)
193 ) -> Dict[str, torch.Tensor]:
194 if isinstance(examples[0], (dict, BatchEncoding)):
--> 195 examples = [e["input_ids"] for e in examples]
196 batch = self._tensorize_batch(examples)
197 if self.mlm:

~/anaconda3/lib/python3.7/site-packages/transformers/data/data_collator.py in (.0)
193 ) -> Dict[str, torch.Tensor]:
194 if isinstance(examples[0], (dict, BatchEncoding)):
--> 195 examples = [e["input_ids"] for e in examples]
196 batch = self._tensorize_batch(examples)
197 if self.mlm:

KeyError: 'input_ids'


Подробнее здесь: https://stackoverflow.com/questions/649 ... ning-of-be
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»