Например, компания-клиент X имеет Риск 70%, и этот риск связан с переменными городом, возрастом и количеством сотрудников. Другая компания-клиент Y может иметь риск 80 %, и этот риск связан с переменными город, уровень обслуживания и средняя зарплата.
Я провожу простой первоначальный анализ, включающий следующие шаги: где модель обучена с использованием 20 показателей компаний, уже имеющих долги (классификация 1) и такого же количества других компаний, не имеющих долгов (классификация 0). Модель подбирается, а затем делаются прогнозы для новых компаний без классификации.
Код: Выделить всё
# X base composed of encoded indicators
features = df_all_aux.columns.tolist()
X = df_all_aux[features[:-1]] # all features except "Classification"
# y base composed of the target: 1 if debt, 0 if no debt
y = df_all_aux['Classification']
#Define the model
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
#Train the model using the training data
rf_classifier.fit(X, y)
#Predictions using the asset data
y_pred = rf_classifier.predict_proba(df_new_companies)
#Incorporating the data into the dataset
df_new_companies['Risk_0'] = y_pred[:, 0] # Probability of being class 0
df_new_companies['Risk_1'] = y_pred[:, 1] # Probability of being class 1
Код: Выделить всё
City Age Number_Employe Service Average_Salary Classification ...
1 100 20000 3 2000 1
2 85 15000 1 5200 1
1 103 20100 1 5200 1
4 100 19800 2 5000 0
1 101 30000 2 3500 0
3 92 18900 3 5100 0
...
over 1000 rows and 20 columns
Код: Выделить всё
df_new_companies
У меня уже есть проценты риска, теперь я просто хочу знать, какие показатели больше всего связаны с риском 1 для каждой компании.
Подробнее здесь: https://stackoverflow.com/questions/790 ... for-each-c