У меня вопрос по поводу make_classification из scikit-learn. Я создал набор данных с помощью make_classification (задача двоичной классификации), и цель состоит в том, чтобы проверить, насколько хорошо разные модели могут отличать важные функции от менее важных.
Как я могу установить эксперимент, в котором я могу оценить, способна ли модель идентифицировать переменные, оказывающие влияние?
Я просмотрел документацию make_classification, но, к сожалению, не нашел дальше.
Я установил следующее:
Код: Выделить всё
X,y = make_classification(n_samples=50000, n_features=10, n_informative=5,
n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2,
class_sep=1,
flip_y=0.01, weights=[0.9,0.1], shuffle=True, random_state=42)
Как я могу отобразить — в данном случае — 5 информативных переменных? Могу ли я определить важность функций при создании данных с помощью make_classification? Какие функции make_classification считают важными? А затем, на следующем этапе, я бы использовал некоторые методы freature_importance, чтобы проверить (или нет), насколько хорошо модель определяет «предварительно установленную» важность функции/влияющие переменные.
Спасибо. вы, любые идеи или советы высоко ценятся.
Подробнее здесь:
https://stackoverflow.com/questions/783 ... iables-tha