Skip to content

letsgetai/risk_predict_demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

金融风控模型 - 客户逾期预测

Project Banner

📊 数据集说明

数据特征

特征类别 变量范围 描述
客户基本信息 x0-x20 包含客户 demographic 信息
历史金融借贷 x20-x256 征信系统中的借贷历史记录
其他行为数据 x256-x3805 客户其他金融/消费行为

目标变量
y=1 表示授信后发生逾期,y=0 表示正常还款

数据统计

数据集 样本量 正样本占比 时间维度
训练集 62,000 18% 分阶段记录 (date变量)
测试集 18,000 11% 与训练集同分布

数据分布可视化 图:训练集与测试集的样本分布

🎯 建模目标

预测客户逾期概率 P(y=1|x) ∈ [0,1]

输出处理建议

🧠 模型架构 当前最佳结构

超参数建议:

Patch长度: 128
Hidden size: 64-256 (需验证)
使用线性层+正则化防止过拟合

🔍 实验记录

采样策略对比
方法	准确率	召回率	备注
原始数据	0.633	0.551	Baseline
欠采样	0.618	0.573	需验证正样本量
阈值调整	0.590	0.636	最佳平衡

NNI超参搜索

nnictl create --config config.yaml --port 8080

算法对比表:

算法	优点	缺点	安装
TPE	轻量级贝叶斯优化	忽略参数关联	内置
SMAC	处理分类变量好	依赖随机森林	pip install nni[SMAC]
BOHB	组合Hyperband+TPE	计算成本高	内置

待解决问题

验证欠采样后的正样本比例
优化patch-based特征提取层
测试不同hidden_size的影响

About

风控比赛的一个神经网络模型

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published