Почему «facebook/bart-large-mnli» дает разные вероятности при использовании «конвейера» и ручной токенизации? - Цифровое Кемерово

Почему «facebook/bart-large-mnli» дает разные вероятности при использовании «конвейера» и ручной токенизации? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Почему «facebook/bart-large-mnli» дает разные вероятности при использовании «конвейера» и ручной токенизации?

Цитата

Сообщение Anonymous » 16 ноя 2024, 12:01

Я наблюдаю существенно разные вероятности для одних и тех же входных данных (предпосылка и гипотеза) при использовании модели facebook/bart-large-mnli с методом конвейера по сравнению с токенизацией вручную и подачей входных данных в модель. Я использую предварительно обученную версию модели, перенос обучения не проводился.
Следуют версии пакета, а среда — Google-colab под управлением Ubuntu 22.04.3 LTS.

Код: Выделить всё

$pip list | grep -E 'torch|transformers'
sentence-transformers              3.2.1
torch                              2.5.1+cu121
transformers                       4.46.2

Использование конвейера:

Код: Выделить всё

import torch
from transformers import pipeline

torch_device = torch.device('cuda:0')
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli", device=torch_device)

result = classifier(
"one day I will see the world",
['travel', 'cooking', 'dancing', 'exploration'],
multi_label=True
)
print(result)

Вывод:

Код: Выделить всё

{
'sequence': 'one day I will see the world',
'labels': ['travel', 'exploration', 'dancing', 'cooking'],
'scores': [0.9945111274719238, 0.9383887052536011, 0.005706209223717451, 0.0018193129217252135]
}

Токенизация и передача входных данных в модель вручную:

Код: Выделить всё

from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('facebook/bart-large-mnli')
nli_model = AutoModelForSequenceClassification.from_pretrained('facebook/bart-large-mnli').to(torch_device)

inputs = tokenizer.batch_encode_plus(
['one day I will see the world'] + ['travel', 'exploration', 'dancing', 'cooking'],
return_tensors='pt',
padding=True
)

output = nli_model(
inputs['input_ids'].to(torch_device),
attention_mask=inputs['attention_mask'].to(torch_device)
)[0]
# doing `1:` to discard outputs for the premise
label_reps = output[1:, [0, 2]]
# softmax to not have logits
probs = label_reps.softmax(dim=1)
# extract probabilities that the output class is 1
prob_label_is_true = probs[:, 1]
print(prob_label_is_true)

Вывод:

Код: Выделить всё

tensor([0.8655, 0.4706, 0.9117, 0.7982], device='cuda:0', grad_fn=)

Ключевые проблемы:

Вероятности из конвейера значительно выше и имеют больше смысла с учетом входных данных. .
Ручная токенизация и метод вывода модели дают гораздо меньшие вероятности.

Вопрос:Что может быть причиной такого несоответствия вероятностей между двумя методами? Как я могу заставить метод, размеченный вручную, создавать вероятности, более близкие к вероятностям конвейера (например, в пределах 1-2 десятичных знаков), в то же время имея эквивалент multi_label=True, чтобы иметь несколько правильных классов ? Мне нужно использовать метод ручной токенизации, поскольку я собираюсь позже экспортировать модель в torch.jit, хотя я не совсем уверен, что это сработает для этой конкретной модели.

Подробнее здесь: https://stackoverflow.com/questions/791 ... g-pipeline

Реклама

1731747685

Anonymous

Я наблюдаю существенно разные вероятности для одних и тех же входных данных (предпосылка и гипотеза) при использовании модели facebook/bart-large-mnli с методом конвейера по сравнению с токенизацией вручную и подачей входных данных в модель. Я использую предварительно обученную версию модели, перенос обучения не проводился.
Следуют версии пакета, а среда — Google-colab под управлением Ubuntu 22.04.3 LTS. 
[code]$pip list | grep -E 'torch|transformers'
sentence-transformers              3.2.1
torch                              2.5.1+cu121
transformers                       4.46.2
[/code]
Использование конвейера:
[code]import torch
from transformers import pipeline

torch_device = torch.device('cuda:0')
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli", device=torch_device)

result = classifier(
"one day I will see the world",
['travel', 'cooking', 'dancing', 'exploration'],
multi_label=True
)
print(result)
[/code]
Вывод:
[code]{
'sequence': 'one day I will see the world',
'labels': ['travel', 'exploration', 'dancing', 'cooking'],
'scores': [0.9945111274719238, 0.9383887052536011, 0.005706209223717451, 0.0018193129217252135]
}
[/code]
Токенизация и передача входных данных в модель вручную:
[code]from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('facebook/bart-large-mnli')
nli_model = AutoModelForSequenceClassification.from_pretrained('facebook/bart-large-mnli').to(torch_device)

inputs = tokenizer.batch_encode_plus(
['one day I will see the world'] + ['travel', 'exploration', 'dancing', 'cooking'],
return_tensors='pt',
padding=True
)

output = nli_model(
inputs['input_ids'].to(torch_device),
attention_mask=inputs['attention_mask'].to(torch_device)
)[0]
# doing `1:` to discard outputs for the premise
label_reps = output[1:, [0, 2]]
# softmax to not have logits
probs = label_reps.softmax(dim=1)
# extract probabilities that the output class is 1
prob_label_is_true = probs[:, 1]
print(prob_label_is_true)
[/code]
Вывод:
[code]tensor([0.8655, 0.4706, 0.9117, 0.7982], device='cuda:0', grad_fn=)
[/code]
Ключевые проблемы:
[list]
[*]Вероятности из конвейера значительно выше и имеют больше смысла с учетом входных данных. .
[*]Ручная токенизация и метод вывода модели дают гораздо меньшие вероятности.
[/list]
Вопрос:Что может быть причиной такого несоответствия вероятностей между двумя методами? Как я могу заставить метод, размеченный вручную, создавать вероятности, более близкие к вероятностям конвейера (например, в пределах 1-2 десятичных знаков), в то же время имея эквивалент multi_label=True, чтобы иметь несколько правильных классов ? Мне нужно использовать метод ручной токенизации, поскольку я собираюсь позже экспортировать модель в torch.jit, хотя я не совсем уверен, что это сработает для этой конкретной модели.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79194815/why-does-facebook-bart-large-mnli-give-different-probabilities-using-pipeline[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Выборка из совместной функции вероятности вероятности в Python

Последнее сообщение Anonymous « 16 ноя 2024, 05:52
Добавлено в форуме Python

Anonymous » 16 ноя 2024, 05:52 » в форуме Python

У меня есть неотрицательный нормализованный вектор p. Я хотел бы выбрать индекс из набора индексов вектора. Вероятность получения выборки k равна p . Используя функцию np.random.choise, я могу написать следующий код.
p =
indices =...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
16 ноя 2024, 05:52
Выборка из совместной функции вероятности вероятности в Python

Последнее сообщение Anonymous « 16 ноя 2024, 06:51
Добавлено в форуме Python

Anonymous » 16 ноя 2024, 06:51 » в форуме Python

У меня есть неотрицательный нормализованный вектор p. Я хотел бы выбрать индекс из набора индексов вектора. Вероятность получения выборки k равна p . Используя функцию np.random.choise, я могу написать следующий код.
p =
indices =...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
16 ноя 2024, 06:51
Низкая производительность и признаки переобучения при точной настройке BART с помощью адаптеров на наборе данных CNN/Dai

Последнее сообщение Anonymous « 24 июл 2024, 11:52
Добавлено в форуме Python

Anonymous » 24 июл 2024, 11:52 » в форуме Python

В настоящее время я настраиваю модель BART с помощью адаптеров для задачи суммирования с использованием набора данных CNN/DailyMail. Я заметил, что модель демонстрирует плохую производительность и признаки переобучения. Ниже приведена моя настройка...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
24 июл 2024, 11:52
Исполняемая разница в сборке в ручной сборке против CICD -конвейера сборка [закрыто]

Последнее сообщение Anonymous « 30 мар 2025, 15:49
Добавлено в форуме C++

Anonymous » 30 мар 2025, 15:49 » в форуме C++

У меня есть приложение C ++, которое мы создаем с помощью . Makefile имеет все зависимости. Я строю в Linux, и он создает исполняемый пакет некоторых размеров.
Я реализовал Gitlab CICD для того же приложения. Я строю приложение с помощью мастер...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
30 мар 2025, 15:49
Потеря-это «NAN», когда модель NLI с тонкой настройкой (обе Roberta/Bart)

Последнее сообщение Anonymous « 01 сен 2025, 08:51
Добавлено в форуме Python

Anonymous » 01 сен 2025, 08:51 » в форуме Python

Я использую библиотеку Transformer's Transformer's Huggingface, и я пытаюсь точно настроить предварительно обученную модель NLI ( ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli ) в наборе данных около 276.000 пар гипотезы-предыдущих. Я следую...

0 Ответы

0 Просмотры

Последнее сообщение Anonymous
01 сен 2025, 08:51

Вернуться в «Python»

Programmiererforum