Как выбрать подмножество eval_dataset при обучении с помощью Huggingface Trainer? - Цифровое Кемерово

Как выбрать подмножество eval_dataset при обучении с помощью Huggingface Trainer? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как выбрать подмножество eval_dataset при обучении с помощью Huggingface Trainer?

Цитата

Сообщение Anonymous » 06 июл 2024, 21:47

При использовании трейнера трансформеров Huggingface, например

Код: Выделить всё

# set training arguments - these params are not really tuned, feel free to change
training_args = Seq2SeqTrainingArguments(
output_dir="./",
evaluation_strategy="steps",
per_device_train_batch_size=50,
per_device_eval_batch_size=10,
predict_with_generate=True,
logging_steps=2,  # set to 1000 for full training
save_steps=16,    # set to 500 for full training
eval_steps=4,     # set to 8000 for full training
warmup_steps=1,   # set to 2000 for full training
max_steps=16,     # delete for full training
# overwrite_output_dir=True,
save_total_limit=1,
#fp16=True,
)

# instantiate trainer
trainer = Seq2SeqTrainer(
model=multibert,
tokenizer=tokenizer,
args=training_args,
train_dataset=train_data.with_format("torch"),
eval_dataset=eval_data.with_format("torch"),
)

Есть ли способ случайного выбора/выборки данных из eval_data на каждом n eval_steps?
Например. Я пробовал

Код: Выделить всё

eval_data = eval_data.select(range(3000))

...

trainer = Seq2SeqTrainer(
model=multibert,
tokenizer=tokenizer,
args=training_args,
train_dataset=train_data.with_format("torch"),
eval_dataset=eval_data.with_format("torch"),
)

Но это будет статическое определение подмножества eval_data перед обучением.
Можно ли сделать выбор во время обучения и сделать так, чтобы в каждой точке оценки выбиралось другое подмножество?

Подробнее здесь: https://stackoverflow.com/questions/742 ... ace-traine

Реклама

1720291651

Anonymous

При использовании трейнера трансформеров Huggingface, например
[code]# set training arguments - these params are not really tuned, feel free to change
training_args = Seq2SeqTrainingArguments(
output_dir="./",
evaluation_strategy="steps",
per_device_train_batch_size=50,
per_device_eval_batch_size=10,
predict_with_generate=True,
logging_steps=2,  # set to 1000 for full training
save_steps=16,    # set to 500 for full training
eval_steps=4,     # set to 8000 for full training
warmup_steps=1,   # set to 2000 for full training
max_steps=16,     # delete for full training
# overwrite_output_dir=True,
save_total_limit=1,
#fp16=True,
)

# instantiate trainer
trainer = Seq2SeqTrainer(
model=multibert,
tokenizer=tokenizer,
args=training_args,
train_dataset=train_data.with_format("torch"),
eval_dataset=eval_data.with_format("torch"),
)
[/code]
Есть ли способ случайного выбора/выборки данных из eval_data на каждом n eval_steps?
Например. Я пробовал
[code]eval_data = eval_data.select(range(3000))

...

trainer = Seq2SeqTrainer(
model=multibert,
tokenizer=tokenizer,
args=training_args,
train_dataset=train_data.with_format("torch"),
eval_dataset=eval_data.with_format("torch"),
)
[/code]
Но это будет статическое определение подмножества eval_data перед обучением.
Можно ли сделать выбор во время обучения и сделать так, чтобы в каждой точке оценки выбиралось другое подмножество? 

Подробнее здесь: [url]https://stackoverflow.com/questions/74257764/how-to-select-a-subset-of-the-eval-dataset-when-training-with-huggingface-traine[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Улучшение производительности DataSet.ReadXml с помощью DataTable.BeginLoadData: DataSet.EnforceConstraints оставлено fal

Последнее сообщение Anonymous « 14 янв 2025, 20:02
Добавлено в форуме C#

Anonymous » 14 янв 2025, 20:02 » в форуме C#

В разделе «Загрузка набора данных из XML» я нашел следующее утверждение:

Если вы вызываете ReadXml для загрузки очень большого файла, вы можете столкнуться с медленная производительность. Чтобы обеспечить максимальную производительность ReadXml для...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 20:02
Получите пакет ускорения для регистрации результатов тестов с помощью Huggingface Trainer.

Последнее сообщение Anonymous « 04 янв 2024, 16:28
Добавлено в форуме Python

Anonymous » 04 янв 2024, 16:28 » в форуме Python

Я настраиваю модель T5 для конкретного набора данных, и мой код выглядит следующим образом:

accelerator = Accelerator(log_with='wandb') tokenizer = T5Tokenizer.from_pretrained('t5-base') модель =...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
04 янв 2024, 16:28
Точная настройка Huggingface Trainer при использовании нескольких графических процессоров получает предупреждения о поте

Последнее сообщение Anonymous « 11 апр 2024, 07:39
Добавлено в форуме Linux

Anonymous » 11 апр 2024, 07:39 » в форуме Linux

Я следую этому сценарию и пытаюсь адаптироваться, установив device_map = auto для использования нескольких графических процессоров в контейнере Docker. Ниже приведены настройки сервера:
DITRIB_ID=Ubuntu
DISPRIB_RELEASE=22.04
ubuntu@ubuntu:~$...

0 Ответы

49 Просмотры

Последнее сообщение Anonymous
11 апр 2024, 07:39
Присоедините 2 DataSet в Java Spark, чтобы объединить их в один DataSet

Последнее сообщение Anonymous « 28 окт 2023, 15:55
Добавлено в форуме JAVA

Anonymous » 28 окт 2023, 15:55 » в форуме JAVA

У меня есть 2 набора данных
введите здесь описание изображения
2) введите сюда описание изображения Я хочу, чтобы результатом был набор данных, который объединяет оба Результирующий набор данных введите сюда описание изображения

с использованием...

0 Ответы

82 Просмотры

Последнее сообщение Anonymous
28 окт 2023, 15:55
Window.eval () работает, но Eval не отображается как свойство окна объекта? [дублировать]

Последнее сообщение Anonymous « 08 фев 2025, 20:10
Добавлено в форуме Javascript

Anonymous » 08 фев 2025, 20:10 » в форуме Javascript

Я заметил, что функция eval () в JavaScript не указана в качестве свойства объекта Window , хотя она все еще доступна, вызывая window.eval () . Почему это? JS Lang-Js PrettyPrint-Override > listKeys(document.getElementById( container ), globalThis);...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
08 фев 2025, 20:10

Вернуться в «Python»

Programmiererforum