Я пытаюсь доработать модель на основе трансформатора (LM и LLM). LM, который я использовал, — DEBERTA, а LLM — LLaMA 3. Задача — определить, содержит ли текст снисходительный язык (бинарная классификация).
Я использую AutoModelForSequenceClassification, который добавляет уровень классификации к верхнему уровню модели как для LM, так и для LLM.
Реализация
- Набор данных:
- Объем: около 10 000 текстов, каждый из которых помечен 0 (чтобы не снисходительно) и 1< /code> (снисходительно). Пропорция — 1:10 (снисходительно: не снисходительно).
- Параметр
Параметр
LM
LLM
Размер пакета
3216 (per_device_train_batch_size = 4,gradient_accumulation_steps = 4)
Эпоха/шаги2 эпохи
1000 шагов (20 % используются в качестве набора проверки)
Скорость обучения
линейная (2e-5)
постоянная (2e-5)
< /tr>
Оптимизатор
AdamW (lr = 2e-5, eps = 1e-8)
paged_adamw_32bit
Точная настройка
Полная тонкая настройка< /td>
LoRA (ранг=32, отсев=0,5, альфа=8) с 8-битным квантованием
Скорость обучения
линейная (2e-5)
постоянная (2e-5)
< /tr>
Точность
0,659
0,836
Вспомнить
0,47
0,091
Оценка F1
0,549
0,164
Вопрос и проблема
Вот лог обучающей выборки. Оценка f1 проверки всегда равна >0,6. Но потери при проверке остаются на уровне 0,24. Это один из образцов доработанного LLM.

- Почему показатель f1 тестового набора находится в диапазоне только от 0 до 0,2 для некоторых вариаций параметров, которые я настроил?
- Обычно ли LM превосходит LLM в выполнении конкретной задачи? Если да, то какова причина?
Подробнее здесь: https://stackoverflow.com/questions/786 ... for-binary