Skip to content

Latest commit

 

History

History
55 lines (44 loc) · 1.55 KB

README.md

File metadata and controls

55 lines (44 loc) · 1.55 KB

数据集说明

wechat_algo_data1

  • 微信视频号推荐算法比赛:Link
  • 原始文件为:user_action.csv feed_info.csv可由大赛页面下载, 目前大赛页面已经下线,可联系作者索取;
  • EDA.ipynb为数据探索结果;
  • DataGenerator.py为ETL脚本,生成数据集:训练集3322313条,测试集609037条,特征工程逻辑请见DataGenerator.py头部注释。

启动ETL

cd ./dataset/wechat_algo_data1
python DataGenerator.py && cd ..

生成的目录结构如下:

├── dataframe
│   ├── DATAFRAME_ALREADY
│   ├── test.csv
│   └── train.csv
├── DataGenerator.py
├── EDA.ipynb
├── features
│   ├── cross_agg_features.pkl
│   ├── FEATURES_PKL_ALREADY
│   ├── feed_agg_features.pkl
│   ├── user_agg_features.pkl
│   └── user_seq_features.pkl
├── feed_info.csv
├── tfrecord
│   ├── test.tfrecord
│   ├── TFRECORD_ALREADY
│   └── train.tfrecord
├── user_action.csv
└── vocabulary
    ├── authorid.txt
    ├── bgm_singer_id.txt
    ├── bgm_song_id.txt
    ├── device.txt
    ├── feedid.txt
    ├── manual_tag_id.txt
    ├── userid.txt
    └── VOCAB_FILE_ALREADY
  • dataframe features 文件夹内为ETL中间结果

  • vovabulary文件夹内为各个类别特征的词典

  • tfrecord文件夹内为最终生成的训练集和测试集