Я создаю модель машинного обучения, которая определяет, является ли пользователь ботом или нет. Я использовал seaborn для построения парного графика и понял, что большая часть данных перекрывается. Ниже приведен код, который я написал для стандартизации, разделения и развертывания модели. Изображение показывает, как модель работает с чуть более чем 40 000 выборками. Как вы можете видеть, модель строит предположения, и я пытаюсь выяснить, почему это так.
Я создаю модель машинного обучения, которая определяет, является ли пользователь ботом или нет. Я использовал seaborn для построения парного графика и понял, что большая часть данных перекрывается. Ниже приведен код, который я написал для стандартизации, разделения и развертывания модели. Изображение показывает, как модель работает с чуть более чем 40 000 выборками. Как вы можете видеть, модель строит предположения, и я пытаюсь выяснить, почему это так.
[img]https://i.sstatic.net/pjM9Iyfg.png[/img]
[code] X = new_df[['Retweet Count', 'Mention Count', 'Follower Count', 'Tweet', 'Hashtags', 'Verified', 'Created At']] y = new_df[['Bot Label']].values
y = y.ravel() # Ensuring that y is 1D array instead of a 2D array