Построение кривой ROC из матрицы путаницы

Построение кривой ROC из матрицы путаницы ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Построение кривой ROC из матрицы путаницы

Цитата

Сообщение Anonymous » 22 сен 2024, 17:07

Мне нужно определить, насколько хорошо разные модели классификации предсказывают значения. Для этого мне нужно построить кривую ROC, но я изо всех сил пытаюсь разработать подход.

Я включил весь свой код Python, а также ссылку на используемый мной набор данных. Кажется, что кода много, но на самом деле все просто. Основная проблема, с которой я столкнулся, заключается в том, что у меня есть матрица путаницы 3x3, и я не знаю, как перевести ее в график ROC.

Любая помощь приветствуется.

Набор данных:

https://archive.ics.uci.edu/ml/machine- ... e-quality/

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.utils.multiclass import unique_labels
import seaborn as sns
import numpy as np

#data = pd.read_csv('wineQualityReds.csv', usecols=lambda x: 'Unnamed' not in x,)
data = pd.read_csv('wineQualityWhites.csv', usecols=lambda x: 'Unnamed' not in x,)

# roc curve and auc score
from sklearn.datasets import make_classification
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score

def plot_roc_curve(fpr, tpr):
plt.plot(fpr, tpr, color='orange', label='ROC')
plt.plot([0, 1], [0, 1], color='darkblue', linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend()
plt.show()

bins = [1,4,6,10]

quality_labels = [0,1,2]

data['quality_categorial'] = pd.cut(data['quality'], bins = bins, labels = quality_labels, include_lowest = True)

display(data.head(n=2))

quality_raw = data['quality_categorial']
features_raw = data.drop(['quality', 'quality_categorial'], axis = 1)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features_raw, quality_raw, test_size = 0.2, random_state = 0)

from sklearn.metrics import fbeta_score
from sklearn.metrics import accuracy_score

def train_predict_evaluate(learner, sample_size, X_train, y_train, X_test, y_test):
results = {}

#start = time()
learner = learner.fit(X_train[:sample_size], y_train[:sample_size])
#end = time()

#results['train_time'] = end - start

#start = time()
predictions_train = learner.predict(X_train[:300])
predictions_test = learner.predict(X_test)

#end = time()

#results['pred_time'] = end - start

results['acc_train'] = accuracy_score(y_train[:300], predictions_train)

results['acc_test'] = accuracy_score(y_test, predictions_test)

results['f_train'] = fbeta_score(y_train[:300], predictions_train, beta = 0.5, average = 'micro')

results['f_test'] = fbeta_score(y_test, predictions_test, beta = 0.5, average = 'micro')

#####################
#array = print(confusion_matrix(y_test, predictions_test))
labels = ['Positives','Negatives']
cm = confusion_matrix(y_test, predictions_test)
print(cm)

df_cm = pd.DataFrame(cm, columns=np.unique(y_test), index = np.unique(y_test))
df_cm.index.name = 'Actual'
df_cm.columns.name = 'Predicted'

plt.figure(figsize = (10,7))
sns.set(font_scale=1.4)#for label size
sns.heatmap(df_cm, cmap="Blues", annot=True, fmt = 'g',annot_kws={"size": 16})# font size

#######################

print(predictions_test)
#auc = roc_auc_score(y_test, probs)
#print('AUC: %.2f' % auc)

#fpr, tpr, thresholds = roc_curve(y_test, probs)
#plot_roc_curve(fpr, tpr)

print("{} trained on {} samples." .format(learner.__class__.__name__, sample_size))

return results

from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

clf_A = GaussianNB()
clf_B = DecisionTreeClassifier(max_depth=None, random_state=None)
clf_C = RandomForestClassifier(max_depth=None, random_state=None)

samples_100 = len(y_train)
samples_10 = int(len(y_train)*10/100)
samples_1 = int(len(y_train)*1/100)

results = {}
for clf in [clf_A,clf_B,clf_C]:
clf_name = clf.__class__.__name__
results[clf_name] = {}
for i, samples in enumerate([samples_1, samples_10, samples_100]):
results[clf_name] = \
train_predict_evaluate(clf, samples, X_train, y_train, X_test, y_test)

train_predict_evaluate(clf_C, samples_100, X_train, y_train, X_test, y_test)

Подробнее здесь: https://stackoverflow.com/questions/575 ... ion-matrix

1727014020

Anonymous

Мне нужно определить, насколько хорошо разные модели классификации предсказывают значения. Для этого мне нужно построить кривую ROC, но я изо всех сил пытаюсь разработать подход. 

Я включил весь свой код Python, а также ссылку на используемый мной набор данных. Кажется, что кода много, но на самом деле все просто. Основная проблема, с которой я столкнулся, заключается в том, что у меня есть матрица путаницы 3x3, и я не знаю, как перевести ее в график ROC.  

Любая помощь приветствуется.

Набор данных:

https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix
from sklearn.utils.multiclass import unique_labels
import seaborn as sns
import numpy as np

#data = pd.read_csv('wineQualityReds.csv', usecols=lambda x: 'Unnamed' not in x,)
data = pd.read_csv('wineQualityWhites.csv', usecols=lambda x: 'Unnamed' not in x,)

# roc curve and auc score
from sklearn.datasets import make_classification
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score

def plot_roc_curve(fpr, tpr):
plt.plot(fpr, tpr, color='orange', label='ROC')
plt.plot([0, 1], [0, 1], color='darkblue', linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend()
plt.show()

bins = [1,4,6,10]

quality_labels = [0,1,2]

data['quality_categorial'] = pd.cut(data['quality'], bins = bins, labels  = quality_labels, include_lowest = True)

display(data.head(n=2))

quality_raw = data['quality_categorial']
features_raw = data.drop(['quality', 'quality_categorial'], axis = 1)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features_raw, quality_raw, test_size = 0.2, random_state = 0)

from sklearn.metrics import fbeta_score
from sklearn.metrics import accuracy_score

def train_predict_evaluate(learner, sample_size, X_train, y_train, X_test, y_test):
results = {}

#start = time()
learner = learner.fit(X_train[:sample_size], y_train[:sample_size])
#end = time()

#results['train_time'] = end - start

#start = time()
predictions_train = learner.predict(X_train[:300])
predictions_test = learner.predict(X_test)

#end = time()

#results['pred_time'] = end - start

results['acc_train'] = accuracy_score(y_train[:300], predictions_train)

results['acc_test'] = accuracy_score(y_test, predictions_test)

results['f_train'] = fbeta_score(y_train[:300], predictions_train, beta  = 0.5, average = 'micro')

results['f_test'] = fbeta_score(y_test, predictions_test, beta = 0.5, average = 'micro')

#####################
#array = print(confusion_matrix(y_test, predictions_test))
labels = ['Positives','Negatives']
cm = confusion_matrix(y_test, predictions_test)
print(cm)

df_cm = pd.DataFrame(cm, columns=np.unique(y_test), index = np.unique(y_test))
df_cm.index.name = 'Actual'
df_cm.columns.name = 'Predicted'

plt.figure(figsize = (10,7))
sns.set(font_scale=1.4)#for label size
sns.heatmap(df_cm, cmap="Blues", annot=True, fmt = 'g',annot_kws={"size": 16})# font size

#######################

print(predictions_test)
#auc = roc_auc_score(y_test, probs)
#print('AUC: %.2f' % auc)

#fpr, tpr, thresholds = roc_curve(y_test, probs)
#plot_roc_curve(fpr, tpr)

print("{} trained on {} samples." .format(learner.__class__.__name__, sample_size))

return results

from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

clf_A = GaussianNB()
clf_B = DecisionTreeClassifier(max_depth=None, random_state=None)
clf_C = RandomForestClassifier(max_depth=None, random_state=None)

samples_100 = len(y_train)
samples_10 = int(len(y_train)*10/100)
samples_1 = int(len(y_train)*1/100)

results = {}
for clf in [clf_A,clf_B,clf_C]:
clf_name = clf.__class__.__name__
results[clf_name] = {}
for i, samples in enumerate([samples_1, samples_10, samples_100]):
results[clf_name][i] = \
train_predict_evaluate(clf, samples, X_train, y_train, X_test, y_test)

train_predict_evaluate(clf_C, samples_100, X_train, y_train, X_test, y_test)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/57580082/plotting-roc-curve-from-confusion-matrix[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Расхождение между AUC ROC OUC ROC и AUC ROC Scikit-Learn для проблемы бинарной классификации

Последнее сообщение Anonymous « 20 июн 2025, 20:55
Добавлено в форуме Python

Anonymous » 20 июн 2025, 20:55 » в форуме Python

Я работаю над проблемой бинарной классификации, где у меня есть ~ 30 функций ферментных субстратов для прогнозирования EC1 и EC2. Я использую XGBOOST с Optuna для настройки гиперпараметра. Тем не менее, я наблюдаю за несоответствием между значениями...

0 Ответы

6 Просмотры

Последнее сообщение Anonymous
20 июн 2025, 20:55
Расхождение между AUC ROC OUC ROC и AUC ROC Scikit-Learn для проблемы бинарной классификации

Последнее сообщение Anonymous « 23 июл 2025, 22:30
Добавлено в форуме Python

Anonymous » 23 июл 2025, 22:30 » в форуме Python

Я работаю над проблемой бинарной классификации, где у меня есть ~ 30 функций ферментных субстратов для прогнозирования EC1 и EC2. Я использую XGBOOST с Optuna для настройки гиперпараметра. Тем не менее, я наблюдаю за несоответствием между значениями...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
23 июл 2025, 22:30
Построение кривой ROC для различных пороговых значений Python

Последнее сообщение Гость « 22 сен 2023, 10:27
Добавлено в форуме Python

Гость » 22 сен 2023, 10:27 » в форуме Python

Я использую MLP для классификации аудио. Следующий код используется для построения кривой ROC и получения оптимальных пороговых значений:

# Вычислить кривую ROC и площадь ROC для каждого класса фпр = дикт() тпр = дикт() roc_auc = dict()...

0 Ответы

24 Просмотры

Последнее сообщение Гость
22 сен 2023, 10:27
Построение кривой ROC для многоклассовой задачи

Последнее сообщение Anonymous « 06 дек 2024, 08:11
Добавлено в форуме Python

Anonymous » 06 дек 2024, 08:11 » в форуме Python

Я пытаюсь применить идею расширения sklearn ROC для мультиклассирования к моему набору данных. Моя кривая ROC для каждого класса выглядит как прямая линия, в отличие от примера sklearn, показывающего колебания кривой.
Ниже я привожу MWE, чтобы...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
06 дек 2024, 08:11
Рассчитать кривую ROC, отчет о классификации и матрицу путаницы для задачи классификации по нескольким меткам.

Последнее сообщение Anonymous « 02 дек 2024, 15:40
Добавлено в форуме Python

Anonymous » 02 дек 2024, 15:40 » в форуме Python

Я пытаюсь понять, как создать матрицу путаницы и кривую ROC для моей задачи классификации по нескольким меткам. Я строю нейронную сеть.
Вот мои занятия:
mlb = MultiLabelBinarizer()
ohe = mlb.fit_transform(as_list)
# loop over each of the possible...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
02 дек 2024, 15:40

Вернуться в «Python»