Можно ли при анализе кредитного риска определить, какие показатели влияют на кредитный риск для каждой компании-клиента?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Можно ли при анализе кредитного риска определить, какие показатели влияют на кредитный риск для каждой компании-клиента?

Сообщение Anonymous »

Я занимаюсь анализом кредитного риска. Я хочу предсказать риск возникновения у каждой компании долга перед вымышленной компанией. Я получил важность признака из модели, но хочу знать, можно ли получить, какие показатели влияют на риск, обнаруженный для каждой компании-клиента.
Например, компания-клиент X имеет Риск 70%, и этот риск связан с переменными городом, возрастом и количеством сотрудников. Другая компания-клиент Y может иметь риск 80 %, и этот риск связан с переменными город, уровень обслуживания и средняя зарплата.
Я провожу простой первоначальный анализ, включающий следующие шаги: где модель обучена с использованием 20 показателей компаний, уже имеющих долги (классификация 1) и такого же количества других компаний, не имеющих долгов (классификация 0). Модель подбирается, а затем делаются прогнозы для новых компаний без классификации.

Код: Выделить всё

# X base composed of encoded indicators
features = df_all_aux.columns.tolist()
X = df_all_aux[features[:-1]] # all features except "Classification"

# y base composed of the target: 1 if debt, 0 if no debt
y = df_all_aux['Classification']

#Define the model
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)

#Train the model using the training data
rf_classifier.fit(X, y)

#Predictions using the asset data
y_pred = rf_classifier.predict_proba(df_new_companies)

#Incorporating the data into the dataset
df_new_companies['Risk_0'] = y_pred[:, 0]  # Probability of being class 0
df_new_companies['Risk_1'] = y_pred[:, 1]  # Probability of being class 1

Уже закодированный кадр данных df_all_aux имеет следующую структуру:

Код: Выделить всё

City    Age     Number_Employe    Service     Average_Salary     Classification ...

1       100              20000          3               2000                  1

2        85              15000          1               5200                  1

1       103              20100          1               5200                  1

4       100              19800          2               5000                  0

1       101              30000          2               3500                  0

3        92              18900          3               5100                  0
...

over 1000 rows and 20 columns

Код: Выделить всё

df_new_companies
имеет ту же структуру, за исключением того, что в нем есть столбец с идентификатором компаний.
У меня уже есть проценты риска, теперь я просто хочу знать, какие показатели больше всего связаны с риском 1 для каждой компании.

Подробнее здесь: https://stackoverflow.com/questions/790 ... for-each-c
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»