Как определить диапазон значений при подготовке данных для машинного обучения ⇐ Python
Как определить диапазон значений при подготовке данных для машинного обучения
Я изучаю базовую задачу классификации машинного обучения, где я тренирую модель для проблемы, где, если age больше, чем 15, вывод будет 1< /code> и если возраст меньше 15, вывод будет 0. Я подготовил файл csv, который можно скачать здесь https://drive.google.com/file/d/1FeDfhH ... sp=sharing
Ниже приведен код, который я использую:
из sklearn.linear_model импортировать логистическую регрессию импортировать панд как pd импортировать numpy как np данные = pd.read_csv("test1.csv") данные.head() X = данные[['Возраст']] Y = данные["Выход"] поезд = данные[:(int((len(данные) * 0,8)))] тест = данные[(int((len(данные) * 0,8))):] clf = ЛогистическаяРегрессия() train_x = np.array(train[['Age']]) train_y = np.array(train["Выход"]) clf.fit(train_x, train_y) test_x = np.array(test[['Age']]) test_y = np.array(test["Выход"]) test_x2 = np.array([[16]]) Y_pred = clf.predict(test_x2) печать (Y_pred) Все работает нормально. Если в text_x2 я дам значение 16, вывод будет равен 1, что является правильным. Если я дам тестовое значение как 12, оно покажет вывод как 0, что правильно. Если я даю тестовое значение как 2, оно все равно показывает 0, что является правильным, но я не обучал модель для возраста как 2, так почему же это работает?
Я также хочу знать, как мы можем определить диапазон данных. Например, если возраст составляет 0–15 лет, то выходное значение должно быть 1. Если возраст 16–30, выходное значение должно быть 2. Если возраст 31–45 лет, выходное значение должно быть 3.
Я изучаю базовую задачу классификации машинного обучения, где я тренирую модель для проблемы, где, если age больше, чем 15, вывод будет 1< /code> и если возраст меньше 15, вывод будет 0. Я подготовил файл csv, который можно скачать здесь https://drive.google.com/file/d/1FeDfhH ... sp=sharing
Ниже приведен код, который я использую:
из sklearn.linear_model импортировать логистическую регрессию импортировать панд как pd импортировать numpy как np данные = pd.read_csv("test1.csv") данные.head() X = данные[['Возраст']] Y = данные["Выход"] поезд = данные[:(int((len(данные) * 0,8)))] тест = данные[(int((len(данные) * 0,8))):] clf = ЛогистическаяРегрессия() train_x = np.array(train[['Age']]) train_y = np.array(train["Выход"]) clf.fit(train_x, train_y) test_x = np.array(test[['Age']]) test_y = np.array(test["Выход"]) test_x2 = np.array([[16]]) Y_pred = clf.predict(test_x2) печать (Y_pred) Все работает нормально. Если в text_x2 я дам значение 16, вывод будет равен 1, что является правильным. Если я дам тестовое значение как 12, оно покажет вывод как 0, что правильно. Если я даю тестовое значение как 2, оно все равно показывает 0, что является правильным, но я не обучал модель для возраста как 2, так почему же это работает?
Я также хочу знать, как мы можем определить диапазон данных. Например, если возраст составляет 0–15 лет, то выходное значение должно быть 1. Если возраст 16–30, выходное значение должно быть 2. Если возраст 31–45 лет, выходное значение должно быть 3.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Взвешивание экземпляров обучения по времени в моделях машинного обучения
Anonymous » » в форуме Python - 0 Ответы
- 135 Просмотры
-
Последнее сообщение Anonymous
-