Позвольте мне задать вопрос более конкретно. Модель, которую мы точно настроили, представляет собой модель генерации кода и выдает выходные данные в виде стиля завершения кода (стиль генерации текста).
Пример ввода: system.out
Пример вывода: system.out. println(xxx)
После преобразования в формат, распознаваемый Ollama, и запуска Ollama стиль изменился на sth, например:
Пример ввода: system.out
Пример вывода: похоже, вы пытаетесь блаблабла и, похоже, также потеряли некоторые знания, связанные с кодом, полученные в результате нашей тонкой настройки.
Исходная версия:
Мы точно настроили модель с помощью MLX и успешно сохранили ее. Подробную информацию можно найти по этой ссылке.
Сгенерированная модель работает. пока все хорошо с такой командой, как mlx_lm.generate --model new_model --prompt "расскажи мне что-нибудь о sql" --temp 0.01 --ignore-chat-template.
Однако после преобразования его в формат gguf и доступа через Ollama результат просто меняется и не соответствует ожиданиям.
Процедура преобразования его в формат gguf выглядит следующим образом:
Код: Выделить всё
python llama.cpp/convert_hf_to_gguf.py path/new_model --outfile path/new_model.gguf
Код: Выделить всё
FROM ./new_model.gguf
# sets the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.01
Код: Выделить всё
ollama create new_model -f modelfile
Подробнее здесь: https://stackoverflow.com/questions/788 ... el-to-gguf