Name		Name	Last commit message	Last commit date
parent directory ..
data/sample_data/train		data/sample_data/train
picture		picture
__init__.py		__init__.py
config.yaml		config.yaml
config_bigdata.yaml		config_bigdata.yaml
criteo_reader.py		criteo_reader.py
dygraph_model.py		dygraph_model.py
net.py		net.py
readme.md		readme.md
static_model.py		static_model.py

readme.md

基于xDeepFM模型的点击率预估模型

以下是本例的简要目录结构及说明：

├── data #样例数据
    ├── sample_data #样例数据
        ├── train
            ├── sample_train.txt #训练数据样例
├── __init__.py
├── README.md #文档
├── config.yaml # sample数据配置
├── config_bigdata.yaml # 全量数据配置
├── net.py # 模型核心组网（动静统一）
├── criteo_reader.py #数据读取程序
├── static_model.py # 构建静态图
├── dygraph_model.py # 构建动态图

注：在阅读该示例前，建议您先了解以下内容：

paddlerec入门教程

模型简介

CTR(Click Through Rate)，即点击率，是“推荐系统/计算广告”等领域的重要指标，对其进行预估是商品推送/广告投放等决策的基础。简单来说，CTR预估对每次广告的点击情况做出预测，预测用户是点击还是不点击。CTR预估模型综合考虑各种因素、特征，在大量历史数据上训练，最终对商业决策提供帮助。本模型实现了下述论文中的xDeepFM模型：

@inproceedings{lian2018xdeepfm,
  title={xdeepfm: Combining explicit and implicit feature interactions for recommender systems},
  author={Lian, Jianxun and Zhou, Xiaohuan and Zhang, Fuzheng and Chen, Zhongxia and Xie, Xing and Sun, Guangzhong},
  booktitle={Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery \& Data Mining},
  pages={1754--1763},
  year={2018}
}

数据准备

训练及测试数据集选用Display Advertising Challenge所用的Criteo数据集。该数据集包括两部分：训练集和测试集。训练集包含一段时间内Criteo的部分流量，测试集则对应训练数据后一天的广告点击流量。每一行数据格式如下所示：

<label> <integer feature 1> ... <integer feature 13> <categorical feature 1> ... <categorical feature 26>

其中<label>表示广告是否被点击，点击用1表示，未点击用0表示。<integer feature>代表数值特征（连续特征），共有13个连续特征。<categorical feature>代表分类特征（离散特征），共有26个离散特征。相邻两个特征用\t分隔，缺失特征用空格表示。测试集中<label>特征已被移除。
在模型目录的data目录下为您准备了快速运行的示例数据，若需要使用全量数据可以参考下方效果复现部分。

运行环境

PaddlePaddle>=2.0

python 2.7/3.5/3.6/3.7

os : windows/linux/macos

快速开始

本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在xdeepfm模型目录的快速执行命令如下：

# 进入模型目录
# cd models/rank/xdeepfm # 在任意目录均可运行
# 动态图训练
python -u ../../../tools/trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
# 动态图预测
python -u ../../../tools/infer.py -m config.yaml 

# 静态图训练
python -u ../../../tools/static_trainer.py -m config.yaml # 全量数据运行config_bigdata.yaml 
# 静态图预测
python -u ../../../tools/static_infer.py -m config.yaml

模型组网

xDeepFM模型的组网本质是一个二分类任务，代码参考xDeepFM1.8.5中的model.py。模型主要组成是线性层部分, cin部分,dnn部分以及相应的分类任务的loss计算和auc计算。模型的组网结构和deepfm相似，其中deepfm的fm部分被换成了cin部分并且多了一个线性层，xdeepfm整体计算流程可概括如下。

线性层部分

线性部分类似于我们rank下的logistic_regression模型。主要由embedding层和reduce_sum层组成
首先介绍Embedding层的搭建方式：Embedding层的输入是feat_idx，shape由超参的sparse_feature_number定义。需要特别解释的是is_sparse参数，当我们指定is_sprase=True后，计算图会将该参数视为稀疏参数，反向更新以及分布式通信时，都以稀疏的方式进行，会极大的提升运行效率，同时保证效果一致。
各个稀疏的输入通过Embedding层后，进行reshape操作，方便和连续值进行结合。
将离散数据通过embedding查表得到的值，与连续数据的输入进行相乘再累加的操作，合为一个一阶项的整体。
用公式表示如下：

cin部分

cin结合了rnn和cnn的优点，有多个卷积层构成，对于除了初始的每一层卷积部分，都会将当前输入和上一层卷积部分结合起来，每一层如下所示：

dnn部分

模型通过并行的方式组合cin和dnn两种方法，两者共用底层的embedding数据。dnn部分的主要组成为三个全连接层，每层FC的输出维度都为400，每层FC都后接一个relu激活函数，每层FC的初始化方式为符合正态分布的随机初始化.
最后接了一层输出维度为1的fc层，方便与fm部分综合计算预测值。

Loss及Auc计算

预测的结果将xDeepFM的线性层部分，cin部分以及dnn部分相加，再通过激活函数sigmoid给出，为了得到每条样本分属于正负样本的概率，我们将预测结果和1-predict合并起来得到predict_2d，以便接下来计算auc。
每条样本的损失为负对数损失值，label的数据类型将转化为float输入。
该batch的损失avg_cost是各条样本的损失之和
我们同时还会计算预测的auc指标。

效果复现

为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。如果需要复现readme中的效果,请按如下步骤依次操作即可。在全量数据下模型的指标如下：

模型	auc	batch_size	epoch_num	Time of each epoch
xDeepFM	0.79	512	1	约2.5小时

确认您当前所在目录为PaddleRec/models/rank/xdeepfm
进入paddlerec/datasets/criteo目录下，执行该脚本，会从国内源的服务器上下载我们预处理完成的criteo全量数据集，并解压到指定文件夹。

cd ../../../datasets/criteo
sh run.sh

cd - # 切回模型目录
# 动态图训练
python -u ../../../tools/trainer.py -m config_bigdata.yaml # 全量数据运行config_bigdata.yaml 
python -u ../../../tools/infer.py -m config_bigdata.yaml # 全量数据运行config_bigdata.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

xdeepfm

xdeepfm

readme.md

基于xDeepFM模型的点击率预估模型

内容

模型简介

数据准备

运行环境

快速开始

模型组网

线性层部分

cin部分

dnn部分

Loss及Auc计算

效果复现

进阶使用

FAQ

Files

xdeepfm

Directory actions

More options

Directory actions

More options

Latest commit

History

xdeepfm

Folders and files

parent directory

readme.md

基于xDeepFM模型的点击率预估模型

内容

模型简介

数据准备

运行环境

快速开始

模型组网

线性层部分

cin部分

dnn部分

Loss及Auc计算

效果复现

进阶使用

FAQ