Financial-fake-Predict

近年来不时出现上市公司财务数据造假及暴雷的情况。面对上市公司多年的财务数据报告，筛选数据指标进行跟踪分析和研究，识别真伪，避免投资踩雷🤣。谁造假谁是是是🐱‍🐉😒

本次项目源于泰迪杯数据挖掘挑战赛国二，代码未能较好包装略显凌乱。

本项目基于初始的行业分类，在此基础上又将其划分到，制造业，服务业，文娱行业，传统行业四个行业进行分析，行业重组如下

缺失值填补通过剔除和KNN缺失值填补结合。

同时部分应用迁移学习思想，发掘不同行业的共同影响特征

主要是基于xgboost,randomforest,svc等机器学习模型，并结合stacking构建集成模型,部分调参如下

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.idea		.idea
Data Prepare.ipynb		Data Prepare.ipynb
PRED_ct.csv		PRED_ct.csv
PRED_fw.csv		PRED_fw.csv
PRED_wy.csv		PRED_wy.csv
PRED_zz.csv		PRED_zz.csv
Question1.ipynb		Question1.ipynb
Question2.ipynb		Question2.ipynb
Question3.ipynb		Question3.ipynb
README.md		README.md
funetuning.png		funetuning.png
industry.png		industry.png
pre_data_ct.csv		pre_data_ct.csv
pre_data_fw.csv		pre_data_fw.csv
pre_data_wy.csv		pre_data_wy.csv
pre_data_zz.csv		pre_data_zz.csv
stacking_ct_0.16		stacking_ct_0.16
stacking_fw_0.05		stacking_fw_0.05
stacking_fw_0.08		stacking_fw_0.08
stacking_model_0.12		stacking_model_0.12
stacking_model_0.125		stacking_model_0.125
stacking_model_0.136		stacking_model_0.136
stacking_wy_0.07		stacking_wy_0.07
transf.png		transf.png
传统行业_full.csv		传统行业_full.csv
制造业_full.csv		制造业_full.csv
文娱行业_full.csv		文娱行业_full.csv
服务业_full.csv		服务业_full.csv

Provide feedback