Работа с Llama 3.2 Vision Multimodal для обнаружения объектов с использованием roboflow

Работа с Llama 3.2 Vision Multimodal для обнаружения объектов с использованием roboflow ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Работа с Llama 3.2 Vision Multimodal для обнаружения объектов с использованием roboflow

Цитата

Сообщение Anonymous » 03 янв 2025, 11:46

Итак, я работаю над проектом, в котором использую набор данных, загруженный из Roboflow в формате yolo, а затем пытаюсь передать папку обучения в Llama 3.2 для контролируемого обучения на этом наборе данных с помощью преобразователей обнимающихся лиц, но проблема в том, что что он запускается при обучении, но в большинстве случаев просто останавливается сам по себе, без ошибок.
Я пробовал разные методы его точной настройки, но ни один из них не сработал.
Я пробовал разные методы его точной настройки, но ни один из них не сработал.
Я пробовал разные методы его точной настройки, но ни один из них не сработал.
р>
Я также поделился фрагментом своего метода точной настройки для Llama, и в настоящее время во время обучения он продолжает выдавать ошибки.
Я также хотел бы уточнить, что я использую RTX 4090 с 64 ГБ ОЗУ и I9-14900k.
И ниже приведен формат моего набора данных roboflow:
Формат Yolov8 для набор данных
def train_llama(images, descriptions):
print("Initializing model and processor...")
model_id = "meta-llama/Llama-Guard-3-11B-Vision"

# Initialize processor
processor = AutoProcessor.from_pretrained(model_id)

# Initialize model
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="cuda"
)
model.config.use_cache = False

print("Creating dataset...")
dataset = CustomImageTextDataset(images, descriptions, processor)

# Split dataset
train_size = int(0.9 * len(dataset))
val_size = len(dataset) - train_size
train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])
print(f"Train size: {train_size}, Validation size: {val_size}")

# Training arguments
training_args = TrainingArguments(
output_dir="./llama_finetuned",
learning_rate=1e-5,
num_train_epochs=3,
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
warmup_ratio=0.05,
logging_steps=10,
eval_strategy="steps",
eval_steps=50,
save_strategy="steps",
save_steps=100,
fp16=True,
gradient_checkpointing=True,
remove_unused_columns=False,
report_to="tensorboard",
load_best_model_at_end=True,
metric_for_best_model="loss",
dataloader_num_workers=0
)

# Initialize trainer
trainer = CustomTrainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=val_dataset
)

print("Starting Llama training...")
try:
trainer.train()
print("Training completed successfully!")

print("Saving model...")
trainer.save_model("./final_llama_model")
print("Model saved successfully!")
return True

except Exception as e:
print(f"Error during training: {str(e)}")
print(f"Traceback: {traceback.format_exc()}")
return False

Подробнее здесь: https://stackoverflow.com/questions/793 ... g-roboflow

1735894018

Anonymous

Итак, я работаю над проектом, в котором использую набор данных, загруженный из Roboflow в формате yolo, а затем пытаюсь передать папку обучения в Llama 3.2 для контролируемого обучения на этом наборе данных с помощью преобразователей обнимающихся лиц, но проблема в том, что что он запускается при обучении, но в большинстве случаев просто останавливается сам по себе, без ошибок.
Я пробовал разные методы его точной настройки, но ни один из них не сработал.
Я пробовал разные методы его точной настройки, но ни один из них не сработал.
Я пробовал разные методы его точной настройки, но ни один из них не сработал.
р>
Я также поделился фрагментом своего метода точной настройки для Llama, и в настоящее время во время обучения он продолжает выдавать ошибки.
Я также хотел бы уточнить, что я использую RTX 4090 с 64 ГБ ОЗУ и I9-14900k.
И ниже приведен формат моего набора данных roboflow:
Формат Yolov8 для набор данных
def train_llama(images, descriptions):
print("Initializing model and processor...")
model_id = "meta-llama/Llama-Guard-3-11B-Vision"

# Initialize processor
processor = AutoProcessor.from_pretrained(model_id)

# Initialize model
model = AutoModelForImageTextToText.from_pretrained(
model_id,
torch_dtype=torch.float16,
device_map="cuda"
)
model.config.use_cache = False

print("Creating dataset...")
dataset = CustomImageTextDataset(images, descriptions, processor)

# Split dataset
train_size = int(0.9 * len(dataset))
val_size = len(dataset) - train_size
train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])
print(f"Train size: {train_size}, Validation size: {val_size}")

# Training arguments
training_args = TrainingArguments(
output_dir="./llama_finetuned",
learning_rate=1e-5,
num_train_epochs=3,
per_device_train_batch_size=2,
gradient_accumulation_steps=4,
warmup_ratio=0.05,
logging_steps=10,
eval_strategy="steps",
eval_steps=50,
save_strategy="steps",
save_steps=100,
fp16=True,
gradient_checkpointing=True,
remove_unused_columns=False,
report_to="tensorboard",
load_best_model_at_end=True,
metric_for_best_model="loss",
dataloader_num_workers=0
)

# Initialize trainer
trainer = CustomTrainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=val_dataset
)

print("Starting Llama training...")
try:
trainer.train()
print("Training completed successfully!")

print("Saving model...")
trainer.save_model("./final_llama_model")
print("Model saved successfully!")
return True

except Exception as e:
print(f"Error during training: {str(e)}")
print(f"Traceback: {traceback.format_exc()}")
return False
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79319609/working-with-llama-3-2-vision-multimodal-for-object-detection-using-roboflow[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Phi-4-Multimodal-Instruct Model отклоняет аудио ввод с «неверной ошибкой ввода» в C# azure.ai.inerence Client

Последнее сообщение Anonymous « 10 мар 2025, 22:46
Добавлено в форуме C#

Anonymous » 10 мар 2025, 22:46 » в форуме C#

Я пытаюсь использовать модель Phi-4-Multimodal-instruct с аудио вводом через клиент Azure.ai.Inerence C#, но при отправке файла MP3 я получаю «неверную ошибку ввода». Такая же ошибка возникает с конечными точками GitHub и...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
10 мар 2025, 22:46
Не удалось загрузить модель ламы по пути: ./Models/llama-7b.ggmlv3.q2_K.bin. Получена ошибка. Llama.__init__() получила

Последнее сообщение Anonymous « 23 сен 2023, 06:26
Добавлено в форуме Python

Anonymous » 23 сен 2023, 06:26 » в форуме Python

из langchain.llms импортировать LlamaCpp из импорта langchain PromptTemplate, LLMChain из langchain.callbacks.manager импортировать CallbackManager из langchain.callbacks.streaming_stdout импортировать StreamingStdOutCallbackHandler шаблон = Вопрос:...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
23 сен 2023, 06:26
Llama 3: получение неизвестной ошибки CUDA при точной настройке Llama 3 в викитексте

Последнее сообщение Anonymous « 19 янв 2025, 15:40
Добавлено в форуме Python

Anonymous » 19 янв 2025, 15:40 » в форуме Python

Я новичок в больших языковых моделях и API Hugging Face. В качестве практики я пытался настроить модель Llama 3.1 8b на наборе данных викитекста.
Когда я пытаюсь запустить следующий скрипт, я получаю неизвестную ошибку CUDA. CUDA error: unknown...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 15:40
Llama 3: получение неизвестной ошибки CUDA при точной настройке Llama 3 в викитексте

Последнее сообщение Anonymous « 19 янв 2025, 16:46
Добавлено в форуме Python

Anonymous » 19 янв 2025, 16:46 » в форуме Python

Я новичок в больших языковых моделях и API Hugging Face. В качестве практики я пытался настроить модель Llama 3.1 8b на наборе данных викитекста.
Когда я пытаюсь запустить следующий скрипт, я получаю неизвестную ошибку CUDA. CUDA error: unknown...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 16:46
Проблемы с реализацией плагина для обнаружения рака кожи в React Native с использованием Vision Camera и Fast OpenCV

Последнее сообщение Anonymous « 30 окт 2024, 10:07
Добавлено в форуме C++

Anonymous » 30 окт 2024, 10:07 » в форуме C++

Я работаю над проектом с использованием процессора кадров React Native Vision Camera, и мне может понадобиться помощь. Я пытаюсь создать плагин для определения чистой кожи, гарантируя отсутствие волос, грязи и других загрязнений. Как только будет...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
30 окт 2024, 10:07

Вернуться в «Python»