Я новичок в обучении данных, особенно в области точной настройки. Я хочу попробовать сделать точную настройку аудиоданных с помощью витов с небольшим набором данных под 100 аудиофайлов по 10 с каждый, и вот в чем проблема, я уже пробовал использовать несколько кейсов типа настройки
Эпоха
Размер пакета
Скорость обучения
Бета< /li>
Разминка Эпохи
Мел Обрабатывает данные
но почему-то это все еще не дает желаемого результата. Я прочитал документацию, и там сказано, что установка эпохи около 600-1000 может дать хороший результат, но в моем случае это все еще не так. Я пытался тренировать около 4 дней несколько случаев: 1-й:
примечания: я впервые занимаюсь точной настройкой проекта.
размер пакета: 16.
период: 200.
время: ~20 минут
результат: I слышал много машинных голосов, некоторые голоса улавливаются правильно, но слишком тихие, чтобы их можно было заметить, если не сосредоточиться на них
2-й:< /strong>
примечания: я прочитал несколько статей, кажется, что меньшая партия может дать более точный результат для небольшого размера данных и для нужной мне эпохи чтобы не переусердствовать, поэтому я попытался реализовать это здесь
размер пакета: 8
эпоха: 300
время: ~30 минут
результат: используя этот подход, я начал слышать какой-то голос, хотя в нем все еще много машинного шаблона, но начал прояснять этот случай
3-е:
примечания: Основываясь на результатах второго случая, я думаю, что увеличение эпохи может дать лучший результат, поскольку диапазон широк, поэтому в этом случае я попытался следовать рекомендуемой конфигурации (16 пакетов и 10 000 эпох). ), но попробуйте уменьшить эпоху.
размер пакета: 8.
эпоха: 3000.
время: ~8-9 часов
результат: почему-то в этом результате он начинает звучать как не машинный, примерно 25%, так что, возможно, увеличение размера пакета может помочь, если я тоже захочу добавить эпоху.
4-е:
примечания: исходя из последних случаев, я пробовал добавить размер партии, так как моя спецификация не так уж и плоха (дополнительную информацию я дам ниже). раздел)
размер пакета: 16
эпоха: 4000
время: ~7-8 часов< /li>
результат: в этом случае звук почему-то становится очень странным и производительность снижается
на основе этого , хочу спросить, как мне правильно рассчитать стоимость своих тренировок, чтобы получить хотя бы достойный результат? Я немного смущен, когда делаю свою первую тонкую настройку.
Что касается моей спецификации ПК, вот она:
NVidia RTX 3060, 12 ГБ DDR6, 64 ГБ ОЗУ и Intel I7-12700F 12-го поколения
Однажды я попробовал получить лучшее конфигурация для моей установки из GPT, но почему-то результат тот же, он дает этот параметр:
Итак, вот несколько вопросов, которые я хочу задать:
Есть ли какие-либо рекомендации для моей точной настройки конфигурации для аудиофайлы с набором данных менее 100 и должен ли максимальный размер пакета всегда быть меньше общего количества выборочных данных?
Я новичок в обучении данных, особенно в области точной настройки. Я хочу попробовать сделать точную настройку аудиоданных с помощью витов с небольшим набором данных под 100 аудиофайлов по 10 с каждый, и вот в чем проблема, я уже пробовал использовать несколько кейсов типа настройки [list] [*]Эпоха [*]Размер пакета [*]Скорость обучения [*]Бета< /li> Разминка Эпохи [*]Мел Обрабатывает данные [/list] но почему-то это все еще не дает желаемого результата. Я прочитал документацию, и там сказано, что установка эпохи около 600-1000 может дать хороший результат, но в моем случае это все еще не так. Я пытался тренировать около 4 дней [b]несколько случаев[/b]: [b]1-й:[/b] [list][*]примечания: я впервые занимаюсь точной настройкой проекта. [*]размер пакета: 16. [*]период: 200. [*]время: ~20 минут [*]результат: I слышал много машинных голосов, некоторые голоса улавливаются правильно, но слишком тихие, чтобы их можно было заметить, если не сосредоточиться на них [/list] [b]2-й:< /strong> [list] [*]примечания: я прочитал несколько статей, кажется, что меньшая партия может дать более точный результат для небольшого размера данных и для нужной мне эпохи чтобы не переусердствовать, поэтому я попытался реализовать это здесь [*]размер пакета: 8 [*]эпоха: 300 [*]время: ~30 минут [*] результат: используя этот подход, я начал слышать какой-то голос, хотя в нем все еще много машинного шаблона, но начал прояснять этот случай [/list] 3-е:[/b] [list] [*]примечания: Основываясь на результатах второго случая, я думаю, что увеличение эпохи может дать лучший результат, поскольку диапазон широк, поэтому в этом случае я попытался следовать рекомендуемой конфигурации (16 пакетов и 10 000 эпох). ), но попробуйте уменьшить эпоху. [*]размер пакета: 8. [*]эпоха: 3000. [*]время: ~8-9 часов [*]результат: почему-то в этом результате он начинает звучать как не машинный, примерно 25%, так что, возможно, увеличение размера пакета может помочь, если я тоже захочу добавить эпоху.[/list] [b]4-е:[/b] [list] [*]примечания: исходя из последних случаев, я пробовал добавить размер партии, так как моя спецификация не так уж и плоха (дополнительную информацию я дам ниже). раздел) [*]размер пакета: 16 [*]эпоха: 4000 [*]время: ~7-8 часов< /li> результат: в этом случае звук почему-то становится очень странным и производительность снижается [/list] на основе этого , хочу спросить, как мне правильно рассчитать стоимость своих тренировок, чтобы получить хотя бы достойный результат? Я немного смущен, когда делаю свою первую тонкую настройку. Что касается моей [b]спецификации ПК[/b], вот она:
NVidia RTX 3060, 12 ГБ DDR6, 64 ГБ ОЗУ и Intel I7-12700F 12-го поколения
Однажды я попробовал получить лучшее конфигурация для моей установки из GPT, но почему-то результат тот же, он дает этот параметр: [code] "train": { "log_interval": 50, "eval_interval": 200, "seed": 1234, "epochs": 1000, "learning_rate": 1e-4, "betas": [0.9, 0.98], "eps": 1e-9, "batch_size": 4, "fp16_run": true, "lr_decay": 0.9999, "segment_size": 8192, "init_lr_ratio": 1, "warmup_epochs": 5, "c_mel": 30, "c_kl": 1.0 } [/code] в конфигурации репозитория по умолчанию это выглядит так: [code] "train": { "log_interval": 200, "eval_interval": 1000, "seed": 1234, "epochs": 10000, "learning_rate": 2e-5, "betas": [0.8, 0.99], "eps": 1e-9, "batch_size": 16, "fp16_run": true, "lr_decay": 0.999875, "segment_size": 8192, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0 } [/code] [b]Итак, вот несколько вопросов, которые я хочу задать:[/b] Есть ли какие-либо рекомендации для моей точной настройки конфигурации для аудиофайлы с набором данных менее 100 и должен ли максимальный размер пакета всегда быть меньше общего количества выборочных данных?
Я новичок в обучении данных, особенно в области точной настройки. Я хочу попробовать сделать точную настройку аудиоданных с помощью vits Finetuning с небольшим набором данных под 100 аудиофайлов длительностью менее 10 с каждый, и вот в чем проблема,...
Я экспериментирую с LoRA, чтобы точно настроить модель для обработки и анализа PDF-файлов, чтобы можно было задавать вопросы на основе этих файлов. По сути, я загружал PDF-файлы, затем программа разбивала их на куски и «училась» на PDF-файлах, чтобы...
Я экспериментирую с LoRA, чтобы точно настроить модель для обработки и анализа PDF-файлов, чтобы можно было задавать вопросы на основе этих файлов. По сути, я загружал PDF-файлы, затем программа разбивала их на куски и «училась» на PDF-файлах, чтобы...
Я следую этому руководству, чтобы точно настроить модель GPT-3. Однако когда я запускаю эту часть кода:
# Enter credentials
%env OPENAI_API_KEY=
!openai api fine_tunes.create \
-t dw_train.jsonl \
-v dw_valid.jsonl \
-m $model \
--n_epochs...