Низкая производительность и признаки переобучения при точной настройке BART с помощью адаптеров на наборе данных CNN/Dai

Низкая производительность и признаки переобучения при точной настройке BART с помощью адаптеров на наборе данных CNN/Dai ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Низкая производительность и признаки переобучения при точной настройке BART с помощью адаптеров на наборе данных CNN/Dai

Цитата

Сообщение Anonymous » 24 июл 2024, 11:52

В настоящее время я настраиваю модель BART с помощью адаптеров для задачи суммирования с использованием набора данных CNN/DailyMail. Я заметил, что модель демонстрирует плохую производительность и признаки переобучения. Ниже приведена моя настройка и соответствующий фрагмент кода. Я уже экспериментировал с различной скоростью обучения и объемом обучающих данных. Будем признательны за любые предложения о том, что может быть причиной этой проблемы или как улучшить производительность модели.
from datasets import load_dataset, DatasetDict
from transformers import TrainingArguments, EvalPrediction
from adapters import AutoAdapterModel, AdapterTrainer
import torch

# Load a subset of the CNN/DailyMail dataset
small_train_dataset = load_dataset("cnn_dailymail", "3.0.0", split="train[:5%]")

# Split the dataset
train_size = 0.8
valid_size = 0.2
train_valid_split = small_train_dataset.train_test_split(test_size=valid_size)
split_dataset = DatasetDict({
'train': train_valid_split['train'],
'validation': train_valid_split['test']
})

# Preprocess and tokenize data
def preprocess_function(examples):
# Assuming 'tokenizer' is already instantiated
return {
'input_ids': tokenizer(examples['article'], padding="max_length", truncation=True, max_length=128),
'labels': tokenizer(examples['highlights'], padding="max_length", truncation=True, max_length=128)["input_ids"]
}

# Initialize BART model with adapters
model = AutoAdapterModel.from_pretrained("facebook/bart-base")
model.add_adapter("cnn_dailymail", config="lora")
model.add_seq2seq_lm_head("cnn_dailymail")
model.train_adapter("cnn_dailymail")

# Training setup
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
training_args = TrainingArguments(
learning_rate=5e-5,
num_train_epochs=1,
per_device_train_batch_size=32,
logging_steps=10,
output_dir="./training_output",
overwrite_output_dir=True,
remove_unused_columns=False,
gradient_accumulation_steps=4
)

trainer = AdapterTrainer(
model=model,
args=training_args,
train_dataset=split_dataset['train'],
eval_dataset=split_dataset['validation']
)

# Start training
trainer.train()

Подробнее здесь: https://stackoverflow.com/questions/787 ... dapters-on

1721811159

Anonymous

В настоящее время я настраиваю модель BART с помощью адаптеров для задачи суммирования с использованием набора данных CNN/DailyMail. Я заметил, что модель демонстрирует плохую производительность и признаки переобучения. Ниже приведена моя настройка и соответствующий фрагмент кода. Я уже экспериментировал с различной скоростью обучения и объемом обучающих данных. Будем признательны за любые предложения о том, что может быть причиной этой проблемы или как улучшить производительность модели.
from datasets import load_dataset, DatasetDict
from transformers import TrainingArguments, EvalPrediction
from adapters import AutoAdapterModel, AdapterTrainer
import torch

# Load a subset of the CNN/DailyMail dataset
small_train_dataset = load_dataset("cnn_dailymail", "3.0.0", split="train[:5%]")

# Split the dataset
train_size = 0.8
valid_size = 0.2
train_valid_split = small_train_dataset.train_test_split(test_size=valid_size)
split_dataset = DatasetDict({
'train': train_valid_split['train'],
'validation': train_valid_split['test']
})

# Preprocess and tokenize data
def preprocess_function(examples):
# Assuming 'tokenizer' is already instantiated
return {
'input_ids': tokenizer(examples['article'], padding="max_length", truncation=True, max_length=128),
'labels': tokenizer(examples['highlights'], padding="max_length", truncation=True, max_length=128)["input_ids"]
}

# Initialize BART model with adapters
model = AutoAdapterModel.from_pretrained("facebook/bart-base")
model.add_adapter("cnn_dailymail", config="lora")
model.add_seq2seq_lm_head("cnn_dailymail")
model.train_adapter("cnn_dailymail")

# Training setup
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)
training_args = TrainingArguments(
learning_rate=5e-5,
num_train_epochs=1,
per_device_train_batch_size=32,
logging_steps=10,
output_dir="./training_output",
overwrite_output_dir=True,
remove_unused_columns=False,
gradient_accumulation_steps=4
)

trainer = AdapterTrainer(
model=model,
args=training_args,
train_dataset=split_dataset['train'],
eval_dataset=split_dataset['validation']
)

# Start training
trainer.train()
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78787294/poor-performance-and-signs-of-overfitting-when-fine-tuning-bart-with-adapters-on[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Разница между входной формой для 1D CNN, 2D CNN и 3D CNN

Последнее сообщение Anonymous « 21 июл 2025, 09:35
Добавлено в форуме Python

Anonymous » 21 июл 2025, 09:35 » в форуме Python

Я впервые создаю модель CNN для классификации изображений, и я немного запутался в том, что будет формой ввода для каждого типа (1D CNN, 2D CNN, 3D CNN) и как исправить количество фильтров в слое свертки. Мои данные - 100x100x30, где 30 являются...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
21 июл 2025, 09:35
Как изменить набор данных при точной настройке модели Whisper?

Последнее сообщение Anonymous « 04 мар 2024, 11:35
Добавлено в форуме Python

Anonymous » 04 мар 2024, 11:35 » в форуме Python

I tried to fine-tune the Whisper model by referring to the article. If want to refer to the code, please look at the colab link.

All I want to do is change the common-voice dataset used in the article to my dataset.

I use a prepared common-voice...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
04 мар 2024, 11:35
Каков правильный способ точной настройки предварительно обученной модели в пользовательском наборе данных?

Последнее сообщение Anonymous « 09 ноя 2024, 15:03
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 15:03 » в форуме Python

Я обучаю модель двоичной классификации, используя Python, Keras, Tensorflow и MobileNetV2 в качестве базовой модели, а затем добавляю к ней свои собственные слои. Но я не уверен, как правильно точно настроить модель, потому что я пробовал...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 15:03
Каков правильный способ точной настройки предварительно обученной модели в пользовательском наборе данных?

Последнее сообщение Anonymous « 10 ноя 2024, 03:56
Добавлено в форуме Python

Anonymous » 10 ноя 2024, 03:56 » в форуме Python

Я обучаю модель двоичной классификации, используя Python, Keras, Tensorflow и MobileNetV2 в качестве базовой модели, а затем добавляю к ней свои собственные слои. Но я не уверен, как правильно точно настроить модель, потому что я пробовал...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 03:56
Почему «facebook/bart-large-mnli» дает разные вероятности при использовании «конвейера» и ручной токенизации?

Последнее сообщение Anonymous « 16 ноя 2024, 12:01
Добавлено в форуме Python

Anonymous » 16 ноя 2024, 12:01 » в форуме Python

Я наблюдаю существенно разные вероятности для одних и тех же входных данных (предпосылка и гипотеза) при использовании модели facebook/bart-large-mnli с методом конвейера по сравнению с токенизацией вручную и подачей входных данных в модель. Я...

0 Ответы

43 Просмотры

Последнее сообщение Anonymous
16 ноя 2024, 12:01

Вернуться в «Python»