Как бороться с перекрывающимися данными в машинном обучении

Как бороться с перекрывающимися данными в машинном обучении ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как бороться с перекрывающимися данными в машинном обучении

Цитата

Сообщение Anonymous » 05 ноя 2024, 11:03

Я создаю модель машинного обучения, которая определяет, является ли пользователь ботом или нет. Я использовал seaborn для построения парного графика и понял, что большая часть данных перекрывается. Ниже приведен код, который я написал для стандартизации, разделения и развертывания модели. Изображение показывает, как модель работает с чуть более чем 40 000 выборками. Как вы можете видеть, модель строит предположения, и я пытаюсь выяснить, почему это так.

Код: Выделить всё

    X = new_df[['Retweet Count', 'Mention Count', 'Follower Count', 'Tweet', 'Hashtags', 'Verified', 'Created At']]
y = new_df[['Bot Label']].values

y = y.ravel() # Ensuring that y is 1D array instead of a 2D array

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

Scaler = StandardScaler()
X_train_scaled = Scaler.fit_transform(X_train)
X_test_scaled = Scaler.transform(X_test)

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import confusion_matrix

rfc = RandomForestClassifier(n_estimators = 1000)
rfc.fit(X_train_scaled, y_train)
y_pred = rfc.predict(X_test_scaled)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

Подробнее здесь: https://stackoverflow.com/questions/791 ... e-learning

1730793798

Anonymous


Я создаю модель машинного обучения, которая определяет, является ли пользователь ботом или нет. Я использовал seaborn для построения парного графика и понял, что большая часть данных перекрывается. Ниже приведен код, который я написал для стандартизации, разделения и развертывания модели. Изображение показывает, как модель работает с чуть более чем 40 000 выборками. Как вы можете видеть, модель строит предположения, и я пытаюсь выяснить, почему это так.

[img]https://i.sstatic.net/pjM9Iyfg.png[/img]

[code]    X = new_df[['Retweet Count', 'Mention Count', 'Follower Count', 'Tweet', 'Hashtags', 'Verified', 'Created At']]
y = new_df[['Bot Label']].values

y = y.ravel() # Ensuring that y is 1D array instead of a 2D array

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

Scaler = StandardScaler()
X_train_scaled = Scaler.fit_transform(X_train)
X_test_scaled = Scaler.transform(X_test)

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.metrics import confusion_matrix

rfc = RandomForestClassifier(n_estimators = 1000)
rfc.fit(X_train_scaled, y_train)
y_pred = rfc.predict(X_test_scaled)
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
[/code]
[img]https://i.sstatic.net/wiVzZt6Y.png[/img]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79157457/how-to-deal-with-overlapping-data-in-machine-learning[/url]