# set training arguments - these params are not really tuned, feel free to change
training_args = Seq2SeqTrainingArguments(
output_dir="./",
evaluation_strategy="steps",
per_device_train_batch_size=50,
per_device_eval_batch_size=10,
predict_with_generate=True,
logging_steps=2, # set to 1000 for full training
save_steps=16, # set to 500 for full training
eval_steps=4, # set to 8000 for full training
warmup_steps=1, # set to 2000 for full training
max_steps=16, # delete for full training
# overwrite_output_dir=True,
save_total_limit=1,
#fp16=True,
)
# instantiate trainer
trainer = Seq2SeqTrainer(
model=multibert,
tokenizer=tokenizer,
args=training_args,
train_dataset=train_data.with_format("torch"),
eval_dataset=eval_data.with_format("torch"),
)
Есть ли способ случайного выбора/выборки данных из eval_data на каждом n eval_steps?
Например. Я пробовал
Но это будет статическое определение подмножества eval_data перед обучением.
Можно ли сделать выбор во время обучения и сделать так, чтобы в каждой точке оценки выбиралось другое подмножество?
При использовании трейнера трансформеров Huggingface, например [code]# set training arguments - these params are not really tuned, feel free to change training_args = Seq2SeqTrainingArguments( output_dir="./", evaluation_strategy="steps", per_device_train_batch_size=50, per_device_eval_batch_size=10, predict_with_generate=True, logging_steps=2, # set to 1000 for full training save_steps=16, # set to 500 for full training eval_steps=4, # set to 8000 for full training warmup_steps=1, # set to 2000 for full training max_steps=16, # delete for full training # overwrite_output_dir=True, save_total_limit=1, #fp16=True, )
# instantiate trainer trainer = Seq2SeqTrainer( model=multibert, tokenizer=tokenizer, args=training_args, train_dataset=train_data.with_format("torch"), eval_dataset=eval_data.with_format("torch"), ) [/code] Есть ли способ случайного выбора/выборки данных из eval_data на каждом n eval_steps? Например. Я пробовал [code]eval_data = eval_data.select(range(3000))
...
trainer = Seq2SeqTrainer( model=multibert, tokenizer=tokenizer, args=training_args, train_dataset=train_data.with_format("torch"), eval_dataset=eval_data.with_format("torch"), ) [/code] Но это будет статическое определение подмножества eval_data перед обучением. Можно ли сделать выбор во время обучения и сделать так, чтобы в каждой точке оценки выбиралось другое подмножество?
В разделе «Загрузка набора данных из XML» я нашел следующее утверждение:
Если вы вызываете ReadXml для загрузки очень большого файла, вы можете столкнуться с медленная производительность. Чтобы обеспечить максимальную производительность ReadXml для...
Я следую этому сценарию и пытаюсь адаптироваться, установив device_map = auto для использования нескольких графических процессоров в контейнере Docker. Ниже приведены настройки сервера:
DITRIB_ID=Ubuntu
DISPRIB_RELEASE=22.04
ubuntu@ubuntu:~$...
У меня есть 2 набора данных
введите здесь описание изображения
2) введите сюда описание изображения Я хочу, чтобы результатом был набор данных, который объединяет оба Результирующий набор данных введите сюда описание изображения
Я заметил, что функция eval () в JavaScript не указана в качестве свойства объекта Window , хотя она все еще доступна, вызывая window.eval () . Почему это? JS Lang-Js PrettyPrint-Override > listKeys(document.getElementById( container ), globalThis);...