Как выбрать dataset_text_field в SFTTrainer, обнимающее лицо для моей модели LLM

Как выбрать dataset_text_field в SFTTrainer, обнимающее лицо для моей модели LLM ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как выбрать dataset_text_field в SFTTrainer, обнимающее лицо для моей модели LLM

Цитата

Сообщение Anonymous » 30 июн 2024, 15:39

Примечание: новичок в LLM
Общая информация
Я пытаюсь обучить LLM с помощью LLama3 в наборе данных языка stackoverflow c.

Код: Выделить всё

LLm - meta-llama/Meta-Llama-3-8B
Dataset - Mxode/StackOverflow-QA-C-Language-40k

Структура моего набора данных выглядит так

Код: Выделить всё

DatasetDict({
train: Dataset({
features: ['question', 'answer'],
num_rows: 40649
})
})

Почему DataSet_text_field важен? п>

Код: Выделить всё

trainer = SFTTrainer(
model=model,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"],
peft_config=peft_config,
dataset_text_field="question",  # Specify the text field in the dataset 

Подробнее здесь: [url]https://stackoverflow.com/questions/78688141/how-to-choose-dataset-text-field-in-sfttrainer-hugging-face-for-my-llm-model[/url]

1719751143

Anonymous

Примечание: новичок в LLM
Общая информация
Я пытаюсь обучить LLM с помощью LLama3 в наборе данных языка stackoverflow c. 
[code]LLm - meta-llama/Meta-Llama-3-8B
Dataset - Mxode/StackOverflow-QA-C-Language-40k
[/code]
Структура моего набора данных выглядит так
[code]DatasetDict({
train: Dataset({
features: ['question', 'answer'],
num_rows: 40649
})
})
[/code]
 Почему DataSet_text_field важен? п>
[code]trainer = SFTTrainer(
model=model,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"],
peft_config=peft_config,
dataset_text_field="question",  # Specify the text field in the dataset 

Подробнее здесь: [url]https://stackoverflow.com/questions/78688141/how-to-choose-dataset-text-field-in-sfttrainer-hugging-face-for-my-llm-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обнимающее лицо Идентификатор инъекции

Последнее сообщение Anonymous « 09 ноя 2024, 12:58
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 12:58 » в форуме Python

Версии пакетов

langchain==0.1.14
langchain-community==0.0.31
langchain-core==0.1.38
langchain-experimental==0.0.56
pydantic==1.10.14

Я пытаюсь использовать быструю идентификацию инъекций, следуя рекомендациям, изложенным в руководстве,...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 12:58
Присоедините 2 DataSet в Java Spark, чтобы объединить их в один DataSet

Последнее сообщение Anonymous « 28 окт 2023, 15:55
Добавлено в форуме JAVA

Anonymous » 28 окт 2023, 15:55 » в форуме JAVA

У меня есть 2 набора данных
введите здесь описание изображения
2) введите сюда описание изображения Я хочу, чтобы результатом был набор данных, который объединяет оба Результирующий набор данных введите сюда описание изображения

с использованием...

0 Ответы

81 Просмотры

Последнее сообщение Anonymous
28 окт 2023, 15:55
Улучшение производительности DataSet.ReadXml с помощью DataTable.BeginLoadData: DataSet.EnforceConstraints оставлено fal

Последнее сообщение Anonymous « 14 янв 2025, 20:02
Добавлено в форуме C#

Anonymous » 14 янв 2025, 20:02 » в форуме C#

В разделе «Загрузка набора данных из XML» я нашел следующее утверждение:

Если вы вызываете ReadXml для загрузки очень большого файла, вы можете столкнуться с медленная производительность. Чтобы обеспечить максимальную производительность ReadXml для...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
14 янв 2025, 20:02
Выполнение вывода LLM локально с помощью Python (LangChain/AutoGen/AutoMemGPT) с использованием модели LLM, размещенной

Последнее сообщение Anonymous « 05 дек 2024, 16:56
Добавлено в форуме Python

Anonymous » 05 дек 2024, 16:56 » в форуме Python

Я запускаю ehartford_dolphin-2.1-mistral-7b на машине RTX A6000 на RunPod с шаблоном TheBloke LLM Text Generation WebUI.
У меня есть 2 варианта: запуск webui на runpod или запуск шаблона вывода HuggingFace Text Generation на runpod
Вариант 1....

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 16:56
Наследует help_text из django.db.models.Field в rest_framework.serializer.Field

Последнее сообщение Anonymous « 23 сен 2024, 22:07
Добавлено в форуме Python

Anonymous » 23 сен 2024, 22:07 » в форуме Python

Давайте рассмотрим

models.py

class Foo(models.Model):
...
bar = models.IntegerField(help_text='This is bar')
baz = models.IntegerField(help_text='This is baz')

serializers.py

class FooSerializer(serializers.ModelSerializer):
bar =...

0 Ответы

70 Просмотры

Последнее сообщение Anonymous
23 сен 2024, 22:07

Вернуться в «Python»