Не в состоянии генерировать выход на определенных обзорах с помощью модели Fine-Tune

Не в состоянии генерировать выход на определенных обзорах с помощью модели Fine-Tune ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Не в состоянии генерировать выход на определенных обзорах с помощью модели Fine-Tune

Цитата

Сообщение Anonymous » 05 май 2025, 08:05

Я использую T5, текстовую модель для выполнения проверки орфографии в данном наборе данных, состоящем из обзоров. Модель точно настроена в 2 итерациях 20 тыс. Обзоров и 40 тыс. Обзоров каждый. потери обучения и потери проверки во всем этом процессе были 0,0003 и 0,000052 соответственно.
Теперь после этого я применил это в списке образцов из 20 обзоров, чтобы вручную проверить ее производительность, которая была достаточно приличной, но применительно к DataSet, что больше, чем на 14K, не показывают, что на 1K. ?

Код: Выделить всё

class ReviewDataset(Dataset):
def __init__(self, texts):
self.inputs = ["fix: " + text for text in texts]

def __len__(self):
return len(self.inputs)

def __getitem__(self, idx):
return self.inputs[idx]

def collate_fn(batch):
encodings = tokenizer(
batch,
padding=True,
truncation=True,
max_length=128,
return_tensors="pt"
)
return encodings
< /code>
Я реализовал это путем переработки пакетов < /p>
    df = pd.read_csv("reviews.csv",encoding="latin-1")
dataset = ReviewDataset(df["review_text"].tolist())
dataloader = DataLoader(dataset, batch_size=256, collate_fn=collate_fn)

all_predictions = []

with torch.no_grad():
for batch in dataloader:
input_ids = batch["input_ids"].to(device)
attention_mask = batch["attention_mask"].to(device)

outputs = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=64)
decoded = tokenizer.batch_decode(outputs, skip_special_tokens=True)
all_predictions.extend(decoded)

df["corrected_review"] = all_predictions
df.to_csv("corrected_reviews_batched.csv", index=False)

Как это исправить?

Подробнее здесь: https://stackoverflow.com/questions/796 ... tune-model

1746421522

Anonymous

 Я использую T5, текстовую модель для выполнения проверки орфографии в данном наборе данных, состоящем из обзоров. Модель точно настроена в 2 итерациях 20 тыс. Обзоров и 40 тыс. Обзоров каждый. [b] потери обучения [/b] и [b] потери проверки [/b] во всем этом процессе были [b] 0,0003 [/b] и [b] 0,000052 [/b] соответственно.
Теперь после этого я применил это в списке образцов из 20 обзоров, чтобы вручную проверить ее производительность, которая была достаточно приличной, но применительно к DataSet, что больше, чем на 14K, не показывают, что на 1K. ?[code]class ReviewDataset(Dataset):
def __init__(self, texts):
self.inputs = ["fix: " + text for text in texts]

def __len__(self):
return len(self.inputs)

def __getitem__(self, idx):
return self.inputs[idx]

def collate_fn(batch):
encodings = tokenizer(
batch,
padding=True,
truncation=True,
max_length=128,
return_tensors="pt"
)
return encodings
< /code>
Я реализовал это путем переработки пакетов < /p>
    df = pd.read_csv("reviews.csv",encoding="latin-1")
dataset = ReviewDataset(df["review_text"].tolist())
dataloader = DataLoader(dataset, batch_size=256, collate_fn=collate_fn)

all_predictions = []

with torch.no_grad():
for batch in dataloader:
input_ids = batch["input_ids"].to(device)
attention_mask = batch["attention_mask"].to(device)

outputs = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=64)
decoded = tokenizer.batch_decode(outputs, skip_special_tokens=True)
all_predictions.extend(decoded)

df["corrected_review"] = all_predictions
df.to_csv("corrected_reviews_batched.csv", index=False)
[/code]
Как это исправить?  

Подробнее здесь: [url]https://stackoverflow.com/questions/79606346/not-able-to-generate-output-on-certain-reviews-by-using-fine-tune-model[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

LLM Fine Tune — точность проверки намного выше точности тестирования.

Последнее сообщение Anonymous « 28 окт 2024, 15:16
Добавлено в форуме Python

Anonymous » 28 окт 2024, 15:16 » в форуме Python

Я работаю над тонкой настройкой LLama3.2 для задачи классификации текста (10 классов).
Я использую преобразователи + библиотеку Unsloth. >
Размер моего набора данных составляет ~68000 записей (классы не сбалансированы)
Я разделил его на 90/10/10...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 15:16
Выход, выход(), выход(0), die(), die(0) - Как выйти из скрипта

Последнее сообщение Anonymous « 28 ноя 2024, 19:56
Добавлено в форуме Php

Anonymous » 28 ноя 2024, 19:56 » в форуме Php

Я считаю, что все они (и даже die() или die(0)) идентичны. Если они не идентичны, что предпочтительнее для успешного выхода из сценария? Если они идентичны, существует ли какой-либо предпочтительный стандарт для обозначения успешного завершения...

0 Ответы

63 Просмотры

Последнее сообщение Anonymous
28 ноя 2024, 19:56
Pytorch + Ray Tune сообщает, что ImplicitFunc слишком велик, не знаю, какая ссылка велика

Последнее сообщение Anonymous « 12 ноя 2024, 19:21
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 19:21 » в форуме Python

Похоже на этот вопрос, Ray Tune сообщает мне:

ValueError: актер ImplicitFunc слишком велик (421 МБ > FUNCTION_SIZE_ERROR_THRESHOLD=95 МБ) . Убедитесь, что его определение не охватывает неявно большой массив или другой объект в области видимости....

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 19:21
Pytorch + Ray Tune сообщает, что ImplicitFunc слишком велик, не знаю, какая ссылка велика

Последнее сообщение Anonymous « 13 ноя 2024, 02:32
Добавлено в форуме Python

Anonymous » 13 ноя 2024, 02:32 » в форуме Python

Похоже на этот вопрос, Ray Tune сообщает мне:

ValueError: актер ImplicitFunc слишком велик (421 МБ > FUNCTION_SIZE_ERROR_THRESHOLD=95 МБ) . Убедитесь, что его определение не охватывает неявно большой массив или другой объект в области видимости....

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
13 ноя 2024, 02:32
Ray.tune: отслеживаемый актер не управляется

Последнее сообщение Anonymous « 02 май 2025, 11:40
Добавлено в форуме Python

Anonymous » 02 май 2025, 11:40 » в форуме Python

from ray import tune
from ray.tune.search.optuna import OptunaSearch
from ray.tune.integration.pytorch_lightning import TuneReportCheckpointCallback
from pytorch_lightning import Trainer
from pytorch_lightning.callbacks import EarlyStopping
from...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
02 май 2025, 11:40

Вернуться в «Python»