Например, компания-клиент X имеет риск 70%, и этот риск связан с переменными город, возраст и количество сотрудников. Другая клиентская компания Y может иметь риск 80%, и этот риск связан с переменными город, услуги и средняя зарплата.
Я провожу простой первоначальный анализ со следующими шагами, где модель обучается с использованием 20 показателей компаний, которые уже имеют долги (классификация 1) и такого же количества других компаний, которые не имеют долгов (классификация 0). Модель подбирается, а затем делаются прогнозы для новых компаний без классификации.
Код: Выделить всё
# X base composed of encoded indicators
features = df_all_aux.columns.tolist()
X = df_all_aux[features[:-1]] # all features except "Classification"
# y base composed of the target: 1 if debt, 0 if no debt
y = df_all_aux['Classification']
#Define the model
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
#Train the model using the training data
rf_classifier.fit(X, y)
#Predictions using the asset data
y_pred = rf_classifier.predict_proba(df_new_companies)
#Incorporating the data into the dataset
df_new_companies['Risk_0'] = y_pred[:, 0] # Probability of being class 0
df_new_companies['Risk_1'] = y_pred[:, 1] # Probability of being class 1
Код: Выделить всё
City Age Number_Employe Service Average_Salary Classification ...
1 100 20000 3 2000 1
2 85 15000 1 5200 1
1 103 20100 1 5200 1
4 100 19800 2 5000 0
1 101 30000 2 3500 0
3 92 18900 3 5100 0
...
over 1000 rows and 20 columns
Код: Выделить всё
df_new_companiesУ меня уже есть проценты риска, теперь я просто хочу знать, какие показатели больше всего связаны с риском 1 для каждой компании.
Подробнее здесь: https://stackoverflow.com/questions/790 ... for-each-c
Мобильная версия