Я новичок в обучении данных, особенно в области точной настройки. Я хочу попробовать сделать точную настройку аудиоданных с помощью vits Finetuning с небольшим набором данных под 100 аудиофайлов длительностью менее 10 с каждый, и вот в чем проблема, я уже пробовал использовать несколько кейсов типа настройки
Эпоха
Размер пакета
Скорость обучения
Беты
Разогрев Эпох
Мел Обработка данных
но почему-то это все еще не дает желаемого результата. Я прочитал документацию, и там сказано, что установка эпохи около 600-1000 может дать хороший результат, но в моем случае это все еще не так. Я пытался тренировать около 4 дней несколько случаев: 1-й:
примечания: я впервые занимаюсь точной настройкой проекта.
размер пакета: 16.
период: 200.
время: ~20 минут.
результат: я слышал много машинного голоса, некоторые голоса улавливаются правильно, но слишком слабы, чтобы их можно было заметить, если вы не сосредоточились на них. это
2-е:
примечания: Я прочитайте несколько статей, кажется, что меньшая партия может дать более точный результат для небольшого размера данных, а что касается эпохи, мне нужно убедиться, что я не переусердствовал с ее подгонкой, поэтому я попытался реализовать это здесь
размер пакета: 8
эпоха: 300
время: ~30 минут
результат: используя этот подход, я начал слышать какой-то голос, хотя в нем все еще много машинного шаблона, но начал прояснять этот случай
3-й:
примечания: Основываясь на результатах 2-го случая, я думаю, что увеличение эпохи может дать лучший результат, поскольку диапазон широкий, поэтому в данном случае я попытался следовать рекомендуемой конфигурации (16 пакетов и 10 000 эпох), но попытался уменьшить эпоху.
размер пакета: 8.
эпоха: 3000
время: ~8-9 часов
результат: как-то в этом результате это начинает звучать не так машина примерно 25 %, так что, возможно, увеличение размера пакета поможет, если я захочу добавить и эпоху.
4-е:
примечания: исходя из последних случаев, я попытался добавить размер партии, поскольку мои спецификации не так уж и плохи (дополнительную информацию я дам ниже в этом разделе). )
размер пакета: 16
период: 4000
время: ~7-8 часов
время: ~7-8 часов
li>
результат: в данном случае звук почему-то становится очень странным и производительность снижается
на основании этого, Хочу спросить, как мне правильно рассчитать стоимость своих тренировок, чтобы получить хотя бы достойный результат? Я немного смущен, когда делаю свою первую тонкую настройку.
Что касается моей спецификации ПК, вот она:
NVidia RTX 3060, 12 ГБ DDR6, 64 ГБ ОЗУ и Intel I7-12700F 12-го поколения
Однажды я попробовал получить лучшее конфигурация для моей настройки из GPT, но почему-то результат тот же, он дает этот параметр:
Я новичок в обучении данных, особенно в области точной настройки. Я хочу попробовать сделать точную настройку аудиоданных с помощью vits Finetuning с небольшим набором данных под 100 аудиофайлов длительностью менее 10 с каждый, и вот в чем проблема, я уже пробовал использовать несколько кейсов типа настройки [list] [*]Эпоха [*]Размер пакета [*]Скорость обучения [*]Беты [*]Разогрев Эпох [*]Мел Обработка данных [/list] но почему-то это все еще не дает желаемого результата. Я прочитал документацию, и там сказано, что установка эпохи около 600-1000 может дать хороший результат, но в моем случае это все еще не так. Я пытался тренировать около 4 дней [b]несколько случаев[/b]: [b]1-й:[/b] [list][*]примечания: я впервые занимаюсь точной настройкой проекта. [*]размер пакета: 16. [*]период: 200. [*]время: ~20 минут. [*]результат: я слышал много машинного голоса, некоторые голоса улавливаются правильно, но слишком слабы, чтобы их можно было заметить, если вы не сосредоточились на них. это [/list] [b]2-е:[/b] [list] [*]примечания: Я прочитайте несколько статей, кажется, что меньшая партия может дать более точный результат для небольшого размера данных, а что касается эпохи, мне нужно убедиться, что я не переусердствовал с ее подгонкой, поэтому я попытался реализовать это здесь [*]размер пакета: 8 [*]эпоха: 300 [*]время: ~30 минут [*] результат: используя этот подход, я начал слышать какой-то голос, хотя в нем все еще много машинного шаблона, но начал прояснять этот случай [/list] [b]3-й:[/b] [list] [*]примечания: Основываясь на результатах 2-го случая, я думаю, что увеличение эпохи может дать лучший результат, поскольку диапазон широкий, поэтому в данном случае я попытался следовать рекомендуемой конфигурации (16 пакетов и 10 000 эпох), но попытался уменьшить эпоху. [*]размер пакета: 8. [*]эпоха: 3000 [*]время: ~8-9 часов [*]результат: как-то в этом результате это начинает звучать не так машина примерно 25 %, так что, возможно, увеличение размера пакета поможет, если я захочу добавить и эпоху. [/list] [b]4-е:[/b] [list] [*]примечания: исходя из последних случаев, я попытался добавить размер партии, поскольку мои спецификации не так уж и плохи (дополнительную информацию я дам ниже в этом разделе). ) [*]размер пакета: 16 [*]период: 4000 [*]время: ~7-8 часов [*]время: ~7-8 часов [*] li> результат: в данном случае звук почему-то становится очень странным и производительность снижается [/list] на основании этого, Хочу спросить, как мне правильно рассчитать стоимость своих тренировок, чтобы получить хотя бы достойный результат? Я немного смущен, когда делаю свою первую тонкую настройку. Что касается моей [b]спецификации ПК[/b], вот она:
NVidia RTX 3060, 12 ГБ DDR6, 64 ГБ ОЗУ и Intel I7-12700F 12-го поколения
Однажды я попробовал получить лучшее конфигурация для моей настройки из GPT, но почему-то результат тот же, он дает этот параметр: [code] "train": { "log_interval": 50, "eval_interval": 200, "seed": 1234, "epochs": 1000, "learning_rate": 1e-4, "betas": [0.9, 0.98], "eps": 1e-9, "batch_size": 4, "fp16_run": true, "lr_decay": 0.9999, "segment_size": 8192, "init_lr_ratio": 1, "warmup_epochs": 5, "c_mel": 30, "c_kl": 1.0 } [/code] в конфигурации репозитория по умолчанию это выглядит так: [code] "train": { "log_interval": 200, "eval_interval": 1000, "seed": 1234, "epochs": 10000, "learning_rate": 2e-5, "betas": [0.8, 0.99], "eps": 1e-9, "batch_size": 16, "fp16_run": true, "lr_decay": 0.999875, "segment_size": 8192, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0 } [/code] [b]и вот я хочу задать вопрос:[/b] [list] [*]Должна ли максимальная партия размер всегда меньше общего объема данных выборки? [*]правда ли, что использование небольшого размера партии лучше, чем большего? [*]есть ли какие-либо рекомендации для моего штрафа -настроить конфигурацию для аудиофайлов с набором данных менее 100? [/list]
Я новичок в обучении данных, особенно в области точной настройки. Я хочу попробовать сделать точную настройку аудиоданных с помощью витов с небольшим набором данных под 100 аудиофайлов по 10 с каждый, и вот в чем проблема, я уже пробовал...
Я экспериментирую с LoRA, чтобы точно настроить модель для обработки и анализа PDF-файлов, чтобы можно было задавать вопросы на основе этих файлов. По сути, я загружал PDF-файлы, затем программа разбивала их на куски и «училась» на PDF-файлах, чтобы...
Я экспериментирую с LoRA, чтобы точно настроить модель для обработки и анализа PDF-файлов, чтобы можно было задавать вопросы на основе этих файлов. По сути, я загружал PDF-файлы, затем программа разбивала их на куски и «училась» на PDF-файлах, чтобы...
Я следую этому руководству, чтобы точно настроить модель GPT-3. Однако когда я запускаю эту часть кода:
# Enter credentials
%env OPENAI_API_KEY=
!openai api fine_tunes.create \
-t dw_train.jsonl \
-v dw_valid.jsonl \
-m $model \
--n_epochs...