Почему модель NB Scikit-learn имеет большую точность? | Как достичь того же результата | Пользовательская реализация Gau

Почему модель NB Scikit-learn имеет большую точность? | Как достичь того же результата | Пользовательская реализация Gau ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Почему модель NB Scikit-learn имеет большую точность? | Как достичь того же результата | Пользовательская реализация Gau

Цитата

Сообщение Anonymous » 14 май 2024, 04:44

Я просматривал Gaussian Naive Bayes и задавался вопросом, почему моя собственная реализация имеет меньший балл, чем GaussianNB из реализации scikit-learn. Я получил точность ~0,79, а у модели scikit ~0,82.
На основе моих исследований, что влияет на такую разницу в точности:

Эффекты предварительной обработки данных и обработки пропущенных значений. (В моем наборе данных нет пропущенных значений)
GaussianNB использует параметр сглаживания. Они назвали его «эпсилон». (Я унаследовал класс GaussianNB и изменил метод таким образом, чтобы он не использовал параметр сглаживания)
Выбросы могут изменить мою дисперсию и среднее значение.
Scikit-learn использует логарифмическую вероятность вместо обычной вероятности. (Моя реализация также использует логарифмическую вероятность)

Как достичь того же уровня точности, что и реализация scikit-learn?
< pre class="lang-py Prettyprint-override">

Код: Выделить всё

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

my_custom_model = MyCustomNaiveBayes()
my_custom_model.fit(X_train, y_train)
my_custom_model_y_hat = my_custom_model.predict(X_test)
print(f"accuracy score of my_custom model is: {accuracy_score(y_test, my_custom_model_y_hat)}")

sklearn_nb = GaussianNB()
sklearn_nb.fit(X_train, y_train)
sklearn_y_hat = sklearn_nb.predict(X_test)
print(f"accuracy score of sklearn_nb model is: {accuracy_score(y_test, sklearn_y_hat)}")

modified_sklearn_nb = ModifiedGaussianNB()

modified_sklearn_nb.fit(X_train, y_train)
modified_sklearn_nb_y_hat = sklearn_nb.predict(X_test)
print(f"accuracy score of sklearn_nb model is: {accuracy_score(y_test, modified_sklearn_nb_y_hat)}")

Код: Выделить всё

accuracy score of my_custom model is: 0.7980456026058632
accuracy score of sklearn_nb model is: 0.8208469055374593
accuracy score of sklearn_nb model is: 0.8208469055374593

Блокнот Google Colab: https://colab.research.google.com/drive ... sp=sharing
Я отключил переменную эпсилон , однако это не помогло.
Я отключил метод взвешенного среднего и дисперсии, однако эффекта это не дало.

Подробнее здесь: https://stackoverflow.com/questions/784 ... me-score-c

1715651064

Anonymous

Я просматривал Gaussian Naive Bayes и задавался вопросом, почему моя собственная реализация имеет меньший балл, чем GaussianNB из реализации scikit-learn. Я получил точность ~0,79, а у модели scikit ~0,82.
На основе моих исследований, что влияет на такую разницу в точности:
[list]
[*]Эффекты предварительной обработки данных и обработки пропущенных значений. (В моем наборе данных нет пропущенных значений)
[*]GaussianNB использует параметр сглаживания. Они назвали его «эпсилон». (Я унаследовал класс GaussianNB и изменил метод таким образом, чтобы он не использовал параметр сглаживания)
[*]Выбросы могут изменить мою дисперсию и среднее значение.
Scikit-learn использует логарифмическую вероятность вместо обычной вероятности. (Моя реализация также использует логарифмическую вероятность)
[/list]
Как достичь того же уровня точности, что и реализация scikit-learn?
< pre class="lang-py Prettyprint-override">[code]
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

my_custom_model = MyCustomNaiveBayes()
my_custom_model.fit(X_train, y_train)
my_custom_model_y_hat = my_custom_model.predict(X_test)
print(f"accuracy score of my_custom model is: {accuracy_score(y_test, my_custom_model_y_hat)}")

sklearn_nb = GaussianNB()
sklearn_nb.fit(X_train, y_train)
sklearn_y_hat = sklearn_nb.predict(X_test)
print(f"accuracy score of sklearn_nb model is: {accuracy_score(y_test, sklearn_y_hat)}")

modified_sklearn_nb = ModifiedGaussianNB()

modified_sklearn_nb.fit(X_train, y_train)
modified_sklearn_nb_y_hat = sklearn_nb.predict(X_test)
print(f"accuracy score of sklearn_nb model is: {accuracy_score(y_test, modified_sklearn_nb_y_hat)}")

[/code]
[code]accuracy score of my_custom model is: 0.7980456026058632
accuracy score of sklearn_nb model is: 0.8208469055374593
accuracy score of sklearn_nb model is: 0.8208469055374593
[/code]
Блокнот Google Colab: https://colab.research.google.com/drive/1PkwxtJ8TCCMWl3btQiW4LN1BNuexTse2?usp=sharing
Я отключил переменную эпсилон , однако это не помогло.
Я отключил метод взвешенного среднего и дисперсии, однако эффекта это не дало. 

Подробнее здесь: [url]https://stackoverflow.com/questions/78475376/why-scikit-learn-nb-model-has-more-accuracy-how-to-achieve-the-same-score-c[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Функция st_makeenvelope (двойная точность, двойная точность, двойная точность, двойная точность, целое число) не существ

Последнее сообщение Anonymous « 07 авг 2025, 10:55
Добавлено в форуме JAVA

Anonymous » 07 авг 2025, 10:55 » в форуме JAVA

function st_makeenvelope (двойная точность, двойная точность, двойная точность, двойная точность, целое число) не существует
Подсказка: Никакая функция не соответствует данным имени и типам аргументов. Вам может потребоваться добавить явные типы....

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
07 авг 2025, 10:55
Модель Scikit Learn, дающая объект «Локальный фактор выбросов», не имеет атрибута «прогнозировать». Ошибка

Последнее сообщение Anonymous « 10 ноя 2024, 23:12
Добавлено в форуме Python

Anonymous » 10 ноя 2024, 23:12 » в форуме Python

Я новичок в мире машинного обучения, я создал и обучил модель машинного обучения с помощью библиотеки ScikitLearn. Она отлично работает в блокноте Jupyter, но когда я развернул эту модель в Google Cloud ML и попытался обслуживать ее с помощью Python...

0 Ответы

30 Просмотры

Последнее сообщение Anonymous
10 ноя 2024, 23:12
Могу ли я уменьшить числовую точность метода Scikit-Learn's Pregict_proba ()?

Последнее сообщение Anonymous « 11 авг 2025, 19:51
Добавлено в форуме Python

Anonymous » 11 авг 2025, 19:51 » в форуме Python

Вопрос, лежащий в основе вопроса, заключается в том, что я стремлюсь уменьшить время выполнения и вычислительных ресурсов, затраченных моей моделью Scikit-Learn при использовании ее в производстве. Есть ли способ, чтобы метод использовал меньше...

0 Ответы

2 Просмотры

Последнее сообщение Anonymous
11 авг 2025, 19:51
Могу ли я уменьшить числовую точность метода Scikit-Learn's Pregict_proba ()?

Последнее сообщение Anonymous « 11 авг 2025, 21:39
Добавлено в форуме Python

Anonymous » 11 авг 2025, 21:39 » в форуме Python

Вопрос, лежащий в основе вопроса, заключается в том, что я стремлюсь уменьшить время выполнения и вычислительных ресурсов, затраченных моей моделью Scikit-Learn при использовании ее в производстве. Есть ли способ, чтобы метод использовал меньше...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
11 авг 2025, 21:39
Могу ли я уменьшить числовую точность метода Scikit-Learn's Pregict_proba ()?

Последнее сообщение Anonymous « 13 авг 2025, 14:53
Добавлено в форуме Python

Anonymous » 13 авг 2025, 14:53 » в форуме Python

Вопрос, лежащий в основе вопроса, заключается в том, что я стремлюсь уменьшить время выполнения и вычислительных ресурсов, затраченных моей моделью Scikit-Learn при использовании ее в производстве. Есть ли способ, чтобы метод использовал меньше...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
13 авг 2025, 14:53

Вернуться в «Python»