Как понять значение Шепли для задачи двоичной классификации? - Цифровое Кемерово

Как понять значение Шепли для задачи двоичной классификации? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Как понять значение Шепли для задачи двоичной классификации?

Цитата

Сообщение Anonymous » 15 янв 2025, 17:35

Я новичок в пакете python shap. И мне интересно, как мне интерпретировать значение Шепли для задачи двоичной классификации? Вот что я сделал на данный момент.
Во-первых, я использовал модель LightGBM, соответствующую моим данным. Что-то вроде
import shap
import lightgbm as lgb

params = {'object':'binary,
...}
gbm = lgb.train(params, lgb_train, num_boost_round=300)
e = shap.TreeExplainer(gbm)
shap_values = e.shap_values(X)
shap.summary_plot(shap_values[0][:, interested_feature], X[interested_feature])

Поскольку это проблема двоичной классификации. Shap_values состоит из двух частей. Я предполагаю, что один из них относится к классу 0, а другой — к классу 1. Если я хочу узнать вклад одной функции. Мне нужно построить две фигуры, подобные приведенным ниже.
Для класса 0
[img]https: //i.sstatic.net/F08oO.png[/img]

Для класса 1
[img]https://i .sstatic.net/4O9zV.png[/img]

Но как мне улучшить визуализацию? Результаты не могут помочь мне понять, «увеличивает ли cold_days вероятность того, что выходные данные станут классом 1 или классом 0?»
С тем же набором данных, если я использую ИНС, вывод примерно такой. Я думаю, что результат Шепли ясно говорит мне, что «холодные_дни» положительно увеличивают вероятность того, что результат станет классом 1.

Я чувствую, что с выводом LightGBM что-то не так, но я не знаю, как это исправить. Как я могу получить более четкую визуализацию, аналогичную модели ИНС?
#Edit
Я подозреваю, что каким-то образом ошибочно использовал LightGBM, чтобы получить странный результат. Вот исходный код
import lightgbm as lgb
import shap

lgb_train = lgb.Dataset(x_train, y_train, free_raw_data=False)
lgb_eval = lgb.Dataset(x_val, y_val, free_raw_data=False)
params = {
'boosting_type': 'gbdt',
'objective': 'binary',
'metric': 'binary_logloss',
'num_leaves': 70,
'learning_rate': 0.005,
'feature_fraction': 0.7,
'bagging_fraction': 0.7,
'bagging_freq': 10,
'verbose': 0,
'min_data_in_leaf': 30,
'max_bin': 128,
'max_depth': 12,
'early_stopping_round': 20,
'min_split_gain': 0.096,
'min_child_weight': 6,
}

gbm = lgb.train(params,
lgb_train,
num_boost_round=300,
valid_sets=lgb_eval,
)
e = shap.TreeExplainer(gbm)
shap_values = e.shap_values(X)
shap.summary_plot(shap_values[0][:, interested_feature], X[interested_feature])

Подробнее здесь: https://stackoverflow.com/questions/660 ... on-problem

Реклама

1736951718

Anonymous

Я новичок в пакете python shap. И мне интересно, как мне интерпретировать значение Шепли для задачи двоичной классификации? Вот что я сделал на данный момент.
Во-первых, я использовал модель LightGBM, соответствующую моим данным. Что-то вроде
import shap
import lightgbm as lgb

params = {'object':'binary,
...}
gbm = lgb.train(params, lgb_train, num_boost_round=300)
e = shap.TreeExplainer(gbm)
shap_values = e.shap_values(X)
shap.summary_plot(shap_values[0][:, interested_feature], X[interested_feature])

Поскольку это проблема двоичной классификации. Shap_values состоит из двух частей. Я предполагаю, что один из них относится к классу 0, а другой — к классу 1. Если я хочу узнать вклад одной функции. Мне нужно построить две фигуры, подобные приведенным ниже.
Для класса 0
[img]https: //i.sstatic.net/F08oO.png[/img]

Для класса 1
[img]https://i .sstatic.net/4O9zV.png[/img]

Но как мне улучшить визуализацию? Результаты не могут помочь мне понять, «увеличивает ли cold_days вероятность того, что выходные данные станут классом 1 или классом 0?»
С тем же набором данных, если я использую ИНС, вывод примерно такой. Я думаю, что результат Шепли ясно говорит мне, что «холодные_дни» положительно увеличивают вероятность того, что результат станет классом 1. 
[img]https://i.sstatic.net/pFE02 .png[/img]

Я чувствую, что с выводом LightGBM что-то не так, но я не знаю, как это исправить. Как я могу получить более четкую визуализацию, аналогичную модели ИНС?
#Edit
Я подозреваю, что каким-то образом ошибочно использовал LightGBM, чтобы получить странный результат. Вот исходный код
import lightgbm as lgb
import shap

lgb_train = lgb.Dataset(x_train, y_train, free_raw_data=False)
lgb_eval = lgb.Dataset(x_val, y_val, free_raw_data=False)
params = {
'boosting_type': 'gbdt',
'objective': 'binary',
'metric': 'binary_logloss',
'num_leaves': 70,
'learning_rate': 0.005,
'feature_fraction': 0.7,
'bagging_fraction': 0.7,
'bagging_freq': 10,
'verbose': 0,
'min_data_in_leaf': 30,
'max_bin': 128,
'max_depth': 12,
'early_stopping_round': 20,
'min_split_gain': 0.096,
'min_child_weight': 6,
}

gbm = lgb.train(params,
lgb_train,
num_boost_round=300,
valid_sets=lgb_eval,
)
e = shap.TreeExplainer(gbm)
shap_values = e.shap_values(X)
shap.summary_plot(shap_values[0][:, interested_feature], X[interested_feature])
 

Подробнее здесь: [url]https://stackoverflow.com/questions/66018154/how-to-understand-shapley-value-for-binary-classification-problem[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Почему моя CNN для задачи двоичной классификации имеет постоянную точность 50% с BCELoss против 80%+ с перекрестной энтр

Последнее сообщение Anonymous « 04 май 2024, 19:36
Добавлено в форуме Python

Anonymous » 04 май 2024, 19:36 » в форуме Python

Я создаю CNN с нуля с помощью Pytorch. У меня есть сбалансированный набор данных изображений, разделенный пополам для обоих классов. Я пытаюсь использовать функцию BCEwithLogitsLoss из torch.nn, поскольку я читал, что она обычно лучше всего подходит...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
04 май 2024, 19:36
Рассчитать кривую ROC, отчет о классификации и матрицу путаницы для задачи классификации по нескольким меткам.

Последнее сообщение Anonymous « 02 дек 2024, 15:40
Добавлено в форуме Python

Anonymous » 02 дек 2024, 15:40 » в форуме Python

Я пытаюсь понять, как создать матрицу путаницы и кривую ROC для моей задачи классификации по нескольким меткам. Я строю нейронную сеть.
Вот мои занятия:
mlb = MultiLabelBinarizer()
ohe = mlb.fit_transform(as_list)
# loop over each of the possible...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 15:40
Разделение классов наборов данных для двоичной классификации ML

Последнее сообщение Гость « 19 сен 2023, 16:47
Добавлено в форуме Python

Гость » 19 сен 2023, 16:47 » в форуме Python

data_dir = '/kaggle/input/' my_data_dir = f'{data_dir}/surface-crack-detection/surface-crack-detection/' положительный_каталог = my_data_dir + 'Позитивный/' отрицательный_каталог = my_data_dir + 'Отрицательный/' # Определить размеры изображения...

0 Ответы

56 Просмотры

Последнее сообщение Гость
19 сен 2023, 16:47
Реализация двоичной классификации для LSTM и вывода линейного слоя

Последнее сообщение Anonymous « 31 мар 2024, 05:41
Добавлено в форуме Python

Anonymous » 31 мар 2024, 05:41 » в форуме Python

Я работаю над разработкой модели пробуждающего слова для моего помощника с искусственным интеллектом. Архитектура моей модели включает в себя уровень LSTM для обработки аудиоданных, за которым следует линейный уровень. Однако я столкнулся с...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
31 мар 2024, 05:41
Насколько LM (сотни миллионов параметров) превосходит LLM (миллиарды параметров) в задаче двоичной классификации? такое

Последнее сообщение Anonymous « 30 июн 2024, 17:07
Добавлено в форуме Python

Anonymous » 30 июн 2024, 17:07 » в форуме Python

Предисловие
Я пытаюсь доработать модель на основе трансформатора (LM и LLM). LM, который я использовал, — DEBERTA, а LLM — LLaMA 3. Задача — определить, содержит ли текст снисходительный язык (бинарная классификация).
Я использую...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
30 июн 2024, 17:07

Вернуться в «Python»

Programmiererforum