队伍: 最后一次打比赛
队员:jackhuntcn、PandasCute 、LogicJake
- P40 显存 24G
- 内存 114G 或以上
- 磁盘 300G 或以上
run.sh 有安装指令
- gensim
- torch
- transformers
- keras == 2.3.1
- keras_self_attention
- keras_multi_head
- keras_position_wise_feed_forward
- keras_layer_normalization
- lightgbm
.
├── data
│ ├── keras
│ ├── lgb
│ └── torch
├── models
├── probs
├── raw_data
│ ├── test
│ ├── train_preliminary
│ └── train_semi_final
├── run.sh
├── src
│ ├── blending
│ │ └── f1_blend_and_submit.py
│ ├── keras
│ │ ├── f10_AGE_m11_transformer_lstm_5inputs_train_fold.py
│ │ ├── f11_GENDER_m1_transformer_3inputs_train_fold.py
│ │ ├── f12_GENDER_m2_transformer_lstm_3inputs_train_fold.py
│ │ ├── f13_merge_fold_results.py
│ │ ├── f1_save_data.py
│ │ ├── f2_save_sequence.py
│ │ ├── f3_save_embeddings.py
│ │ ├── f4_AGE_m3_lstm_4inputs_train_fold.py
│ │ ├── f5_AGE_m4_transformer_4inputs_train_fold.py
│ │ ├── f6_AGE_m5_transformer_3inputs_train_fold.py
│ │ ├── f7_AGE_m6_transformer_lstm_2inputs_train_fold.py
│ │ ├── f8_AGE_m8_transformer_lstm_3inputs_2r_train_fold.py
│ │ └── f9_AGE_m10_transformer_lstm_5inputs_train_fold.py
│ ├── lgb
│ │ ├── f1_save_tfidf_countvec.py
│ │ ├── f2_save_target_encoding.py
│ │ ├── f3_save_AGE_tf_idf_stacking_feats.py
│ │ ├── f4_save_GENDER_tf_idf_stacking_feats.py
│ │ └── f5_run_fold_training.py
│ ├── stacking
│ │ ├── f1_merge_stacking_feats.py
│ │ ├── f2_save_embeddings.py
│ │ ├── f3_stacking_DNN_120probs_train_fold.py
│ │ ├── f4_stacking_transformer_2inputs_90probs_train_fold.py
│ │ └── f5_merge_fold_results.py
│ └── torch
│ ├── f1_save_data.py
│ ├── f2_save_embedding_w2v.py
│ ├── f3_AGE_m7_lstm_3inputs_train_5fold.py
│ ├── f4_AGE_m1_lstm_6inputs_train_5fold.py
│ ├── f5_AGE_m9_transformer_3inputs_train_5fold.py
│ ├── f6_AGE_m2_transformer_6inputs_train_5fold.py
│ ├── f7_save_data.py
│ ├── f8_AGE_GENDER_m13_transformer_4inputs_train_5fold.py
│ ├── lookahead.py
│ ├── m13_transformer_4inputs.py
│ ├── m1_lstm_6inputs_age.py
│ ├── m2_transformer_6inputs_age.py
│ ├── m7_lstm_3inputs_age.py
│ ├── m9_transformer_3inputs_age.py
│ └── pytorchtools.py
└── w2v_models
17 directories, 40 files
- src 运行代码目录, 分为 torch/keras/lgb 三种框架
- data 预处理完成数据目录
- models 模型生成目录
- probs 模型生成概率存放目录
- raw_data 比赛的原始数据, 包含初赛和复赛数据
- run.sh 一键执行脚本
- w2v_models 为存放 w2v embedding 模型的目录
对 age 和 gender 两个目标分别建模
每种模型分为不同的输入 id 个数,具体模型如下: (分数均指 A 榜分数,下同)
- LSTM + Attention 四输入五折, 线上大概 0.512
- transformer 四输入五折, 线上 0.516
- transformer 三输入五折, 线上 0.515
- transformer + LSTM 二输入五折,线上大概 0.515
- transformer + LSTM 三输入五折,线上大概 0.515
- transformer + LSTM 四输入五折,线上 0.517
- transformer + LSTM 五输入五折,线上大概 0.517
- transformer 三输入五折, 线上 0.9500
- transformer + LSTM 三输入五折, 线上 0.9501
原生 transformers 对 age 和 gender 两个目标分别建模
huggingface transformers 同时对两个目录建模,两路输出
- LSTM + Attention 六输入五折, 线上 0.513
- transformer + LSTM 六输入五折, 线上 0.516
- transformer + LSTM 三输入五折, 线上 0.514
- AGE: transformer + LSTM 四输入五折, 线上 0.519
- GENDER: transformer + LSTM 四输入五折, 线下 0.9468, 线上未测
LGB 使用的特征为 TF-IDF 和 COUNTVEC 以及目标编码特征
后期加入了线性模型产生的概率特征, AGE 线下分数大概 0.48
本次比赛中表现不如 NN 强势, 只采用了 AGE 概率用于 stacking
本次比赛使用了两种 stacking 方式:
- 纯概率特征 stacking: 将上面模型跑出来的概率分层进入 DNN (如 keras 产生的概率与 keras 产生的概率合并,torch 概率与 torch 概率合并, keras 概率先进入, torch 在 keras 概率经过了几层全连接之后再 concat, 实验证明这种做法可以避免相关性较高的概率带来的融合不利影响), 五折线上分数大概为 0.525
- 混合特征 stacking: 一方面采用了不同的两 id 序列输入的 transformers 模型,在最后经过全连接层之前跟上面的九个相关性较低的模型进行 concat, 起到一种类似于残差的作用,避免过拟合, 五折线上分数为 0.523
比赛结束前一周我们使用了 huggingface transformers 重新实现了 transformer + LSTM 模型, 五折分数为 0.519, 而且相关度与之前实现的 keras 和 torch 都较低, 只有 0.93,0.94 左右 (相比 keras 之间的相似度高达 0.98, torch 之间相似度 0.96), 所有我们单独将这个模型与上面所生成的两个 stacking 模型进行融合,取得 0.52780 线上分数:
0.50 * DNN_stacking + 0.15 * transformer_stacking + 0.35 * age_m13
Gender 主要是三个 transformer 模型进行基本均等的融合:线上分数 0.95048
0.35 * gender_m1 + 0.35 * gender_m2 + 0.30 * gender_m3