Насколько LM (сотни миллионов параметров) превосходит LLM (миллиарды параметров) в задаче двоичной классификации? такое

Насколько LM (сотни миллионов параметров) превосходит LLM (миллиарды параметров) в задаче двоичной классификации? такое ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Насколько LM (сотни миллионов параметров) превосходит LLM (миллиарды параметров) в задаче двоичной классификации? такое

Цитата

Сообщение Anonymous » 30 июн 2024, 17:07

Предисловие
Я пытаюсь доработать модель на основе трансформатора (LM и LLM). LM, который я использовал, — DEBERTA, а LLM — LLaMA 3. Задача — определить, содержит ли текст снисходительный язык (бинарная классификация).
Я использую AutoModelForSequenceClassification, который добавляет уровень классификации к верхнему уровню модели как для LM, так и для LLM.
Реализация

Набор данных:
- Объем: около 10 000 текстов, каждый из которых помечен 0 (чтобы не снисходительно) и 1< /code> (снисходительно). Пропорция — 1:10 (снисходительно: не снисходительно).
Параметр

Параметр
LM
LLM

Размер пакета
3216 (per_device_train_batch_size = 4,gradient_accumulation_steps = 4)

Эпоха/шаги2 эпохи
1000 шагов (20 % используются в качестве набора проверки)

Скорость обучения
линейная (2e-5)
постоянная (2e-5)
< /tr>

Оптимизатор
AdamW (lr = 2e-5, eps = 1e-8)
paged_adamw_32bit

Точная настройка
Полная тонкая настройка< /td>
LoRA (ранг=32, отсев=0,5, альфа=8) с 8-битным квантованием

Скорость обучения
линейная (2e-5)
постоянная (2e-5)
< /tr>

Точность
0,659
0,836

Вспомнить
0,47
0,091

Оценка F1
0,549
0,164

Вопрос и проблема
Вот лог обучающей выборки. Оценка f1 проверки всегда равна >0,6. Но потери при проверке остаются на уровне 0,24. Это один из образцов доработанного LLM.

Почему показатель f1 тестового набора находится в диапазоне только от 0 до 0,2 для некоторых вариаций параметров, которые я настроил?
Обычно ли LM превосходит LLM в выполнении конкретной задачи? Если да, то какова причина?

Подробнее здесь: https://stackoverflow.com/questions/786 ... for-binary

1719756431

Anonymous

[b]Предисловие[/b]
Я пытаюсь доработать модель на основе трансформатора (LM и LLM). LM, который я использовал, — DEBERTA, а LLM — LLaMA 3. Задача — определить, содержит ли текст снисходительный язык (бинарная классификация).
Я использую AutoModelForSequenceClassification, который добавляет уровень классификации к верхнему уровню модели как для LM, так и для LLM.
[b]Реализация[/b]
[list]
[*]Набор данных:
[list]
Объем: около 10 000 текстов, каждый из которых помечен 0 (чтобы не снисходительно) и 1< /code> (снисходительно). Пропорция — 1:10 (снисходительно: не снисходительно).
[/list]

[*]Параметр

[/list]



Параметр
LM
LLM




Размер пакета
3216 (per_device_train_batch_size = 4,gradient_accumulation_steps = 4)


Эпоха/шаги2 эпохи
1000 шагов (20 % используются в качестве набора проверки)


Скорость обучения
линейная (2e-5)
постоянная (2e-5)
< /tr>

Оптимизатор
AdamW (lr = 2e-5, eps = 1e-8)
paged_adamw_32bit


Точная настройка
Полная тонкая настройка< /td>
LoRA (ранг=32, отсев=0,5, альфа=8) с 8-битным квантованием


Скорость обучения
линейная (2e-5)
постоянная (2e-5)
< /tr>

Точность
0,659
0,836


Вспомнить
0,47
0,091

Оценка F1
0,549
0,164



[b]Вопрос и проблема[/b]
Вот лог обучающей выборки. Оценка f1 проверки всегда равна >0,6. Но потери при проверке остаются на уровне 0,24. Это один из образцов доработанного LLM.
[img]https://i.sstatic.net/cWtxnVpgm.png[/img]

[list]
[*]Почему показатель f1 тестового набора находится в диапазоне только от 0 до 0,2 для некоторых вариаций параметров, которые я настроил?
[*]Обычно ли LM превосходит LLM в выполнении конкретной задачи? Если да, то какова причина?
[/list] 

Подробнее здесь: [url]https://stackoverflow.com/questions/78688810/how-is-lm-hundreds-million-parameters-beat-llm-billion-parameters-for-binary[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Производительность ударила, когда сохраняет сотни миллионов объектов SQL TimeStamp

Последнее сообщение Anonymous « 16 фев 2025, 03:45
Добавлено в форуме JAVA

Anonymous » 16 фев 2025, 03:45 » в форуме JAVA

Во время выполнения программы, которая опирается на пакет Oracle.SQL , существует большой удар по производительности для сохраняющихся> 200 миллионов временных метров по сравнению с тем, чтобы сохранить такое же количество долгов.

Основная схема...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
16 фев 2025, 03:45
Разделение классов наборов данных для двоичной классификации ML

Последнее сообщение Гость « 19 сен 2023, 16:47
Добавлено в форуме Python

Гость » 19 сен 2023, 16:47 » в форуме Python

data_dir = '/kaggle/input/' my_data_dir = f'{data_dir}/surface-crack-detection/surface-crack-detection/' положительный_каталог = my_data_dir + 'Позитивный/' отрицательный_каталог = my_data_dir + 'Отрицательный/' # Определить размеры изображения...

0 Ответы

57 Просмотры

Последнее сообщение Гость
19 сен 2023, 16:47
Реализация двоичной классификации для LSTM и вывода линейного слоя

Последнее сообщение Anonymous « 31 мар 2024, 05:41
Добавлено в форуме Python

Anonymous » 31 мар 2024, 05:41 » в форуме Python

Я работаю над разработкой модели пробуждающего слова для моего помощника с искусственным интеллектом. Архитектура моей модели включает в себя уровень LSTM для обработки аудиоданных, за которым следует линейный уровень. Однако я столкнулся с...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
31 мар 2024, 05:41
Почему моя CNN для задачи двоичной классификации имеет постоянную точность 50% с BCELoss против 80%+ с перекрестной энтр

Последнее сообщение Anonymous « 04 май 2024, 19:36
Добавлено в форуме Python

Anonymous » 04 май 2024, 19:36 » в форуме Python

Я создаю CNN с нуля с помощью Pytorch. У меня есть сбалансированный набор данных изображений, разделенный пополам для обоих классов. Я пытаюсь использовать функцию BCEwithLogitsLoss из torch.nn, поскольку я читал, что она обычно лучше всего подходит...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
04 май 2024, 19:36
Я хотел бы использовать модель двоичной классификации тензорного потока для вывода прогнозов для всего набора данных.

Последнее сообщение Anonymous « 18 сен 2024, 03:00
Добавлено в форуме Python

Anonymous » 18 сен 2024, 03:00 » в форуме Python

Извиняюсь, если это глупый вопрос, однако я новичок в Tensorflow. Я построил модель, которая прогнозирует, будет ли клиент звонить снова, на основе параметров звонка. Я хотел бы использовать эту модель на регулярной основе с вызовами в этот день,...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
18 сен 2024, 03:00

Вернуться в «Python»