使用Python进行逻辑回归建立评分卡的完整示例代码,包括数据预处理、分箱、特征工程、共线性剔除、模型评估和信用评分规则制定的过程
废话不多说直接上代码:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score
from statsmodels.stats.outliers_influence import variance_inflation_factor
# 1. 数据准备和预处理
data = pd.read_csv('credit_data.csv') # 读取数据集,假设包含特征变量和目标变量
data.dropna(inplace=True) # 处理缺失值
X = data.drop('default', axis=1) # 特征变量
y = data['default'] # 目标变量
# 2. 分箱(Binning)
# 对连续型特征进行分箱操作,将其转化为离散型变量。
# 这里以年龄(age)为例,将其分为5个箱子(bins)。
# 可以根据实际业务需求和统计分析来确定分箱方案。
X['age_bin'] = pd.cut(X['age'], bins=[0, 18, 30, 40, 50, float('inf')])
# 3. 特征工程
# 根据业务需求选择合适的特征变量,并进行编码等处理。
# 例如,对性别(gender)进行二值化编码
X['gender'] = X['gender'].map({'Male': 0, 'Female': 1})
# 例如,对收入(income)进行分段编码
X['income_bin'] = pd.qcut(X['income'], q=5, labels=False)
# 进一步处理其他特征...
# 删除原始特征变量
X_encoded = X.drop(['age', 'income'], axis=1)
# 4. 共线性剔除
# 检查特征之间的共线性,并剔除高度相关的特征。
def calculate_vif(X):
vif = pd.DataFrame()
vif["Feature"] = X.columns
vif["VIF"] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
return vif
vif = calculate_vif(X_encoded)
high_vif_features = vif[vif["VIF"] > 5]["Feature"]
X_encoded = X_encoded.drop(high_vif_features, axis=1)
# 5. 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.3, random_state=42)
# 6. 建立逻辑回归模型
logreg = LogisticRegression()
logreg.fit(X_train, y_train)
# 7. 模型评估
y_pred = logreg.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred)
print("Accuracy: {:.2f}".format(accuracy))
print("AUC: {:.2f}".format(auc))
# 8. 制定信用评分规则
# 根据逻辑回归模型的系数(coef_)和截距(intercept_),可以制定信用评分规则。
# 例如,将系数乘以10并四舍五入作为信用评分。
feature_names = list(X_encoded.columns)
coefs = logreg.coef_[0]
intercept = logreg.intercept_
credit_scores = {}
for feature, coef in zip(feature_names, coefs):
credit_scores[feature] = round(coef * 10, 2)
credit_scores['Intercept'] = round(intercept[0] * 10, 2)
print("Credit Scores:")
for feature, score in credit_scores.items():
print("{}: {}".format(feature, score))
以下是使用逻辑回归建立评分卡的基本步骤:
-
数据准备和预处理:收集相关的特征变量和目标变量数据,并进行必要的预处理,例如处理缺失值、异常值等。
-
分箱(Binning):对连续型特征进行分箱操作,将其转化为离散型变量。通常根据实际业务需求和统计分析来确定分箱方案,例如按照年龄范围或收入水平将样本分成不同的组别。
-
特征工程:根据业务需求选择合适的特征变量,并进行编码等处理。例如,对性别进行二值化编码,对收入进行分段编码。
-
拆分数据集:将数据集拆分为训练集和测试集,一般按照70%训练集和30%测试集的比例进行划分。
-
建立逻辑回归模型:使用训练集数据训练逻辑回归模型。
-
模型评估:使用测试集数据对训练好的模型进行评估,通常采用准确率(Accuracy)和AUC值(ROC曲线下面积)等指标。
-
制定信用评分规则:根据逻辑回归模型的系数(coef_)和截距(intercept_),可以制定信用评分规则。一种常见的方法是将系数乘以10并四舍五入作为信用评分。通过该评分,可以根据个人的特征变量得到一个综合评分,用于衡量其违约风险。