У меня есть коллекция новостных статей, и я хочу создать несколько новых (непредвзятых) новостных статей, используя
meta-llama/Meta-Llama-3-8B-Instruct. Статьи находятся в
обнимающем Наборе данных, и для подачи в
конвейер библиотеки преобразователей я использую
KeyDataset следующим образом:
Код: Выделить всё
key_dataset = KeyDataset(content, "prompt")
where Prompt = «заказы на LLM +article_content»
Я хочу создавать новые статьи партиями, чтобы лучше использовать графический процессор, например это:
Код: Выделить всё
outputs = list(tqdm(pipeline(key_dataset,
batch_size=4,
max_new_tokens = 2*2024,
eos_token_id=terminators,
do_sample=True,
temperature=1,
top_p=0.9,),
total=len(key_dataset)))
Проблема в том, что иногда для некоторых статей текст вообще не генерируется. Почему это? Разве пакетная обработка не работает для входных данных разной длины?
Подробнее здесь:
https://stackoverflow.com/questions/793 ... rs-library