语义索引技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一, 语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序,从基础层面影响整个系统的效果。
语义索引库提供了前沿语义索引策略的训练、语义索引模型的效果评估方案、支持用户基于我们开源的语义索引模型进行文本 Pair 的相似度计算或者 Embedding 语义表示抽取。
我们基于 ERNIE1.0 热启,分别采用 In-batch negatives 策略和 HardestNeg 策略开源了 batch_neg_v1.0 和 hardest_neg_v1.0 模型,相比 Baseline 模型效果有显著提升:
模型 | Recall@10 | Recall@50 | 策略简要说明 |
---|---|---|---|
Baseline | 46.99 | 60.84 | 标准 pair-wise 训练范式,通过随机采样产生负样本 |
In-batch negatives | 51.20(+4.21) | 67.24(+6.4) | 在 Batch 内同时使用 batch_size 个负样本进行训练 |
HardestNeg | 50.22(+3.23) | 65.17(+4.33) | 在 Batch 内先挖掘最难负样本,然后进行 pair-wise 训练 |
以下模型结构参数为:
TrasformerLayer:12, Hidden:768, Heads:12, OutputEmbSize: 256
Model | 训练参数配置 | 硬件 | MD5 |
---|---|---|---|
batch_neg_v1.0 | margin:0.2 scale:30 epoch:3 lr:5E-5 bs:128 max_len:64 |
单卡v100-16g |
da1bb1487bd3fd6a53b8ef95c278f3e6 |
hardest_neg_v1.0 | margin:0.2 epoch:3 lr:5E-5 bs:128 max_len:64 | 单卡v100-16g | b535d890110ea608c8562c525a0b84b5 |
我们基于开源语义匹配数据集构造生成了面向语义索引的训练集、评估集、召回库。
从开源语义相似度任务评测数据集(LCQMC、BQ Corpus、PAWS-X)的训练集和测试集中抽取出所有语义相似的文本 Pair 作为训练集 semantic_pair_train.tsv。
In-batch negatives 策略和 HardestNeg 策略训练数据每一行由 tab
分隔的语义相似的文本 Pair 对,样例数据如下:
欢打篮球的男生喜欢什么样的女生 爱打篮球的男生喜欢什么样的女生
我手机丢了,我想换个手机 我想买个新手机,求推荐
求秋色之空漫画全集 求秋色之空全集漫画
学日语软件手机上的 手机学日语的软件
从开源语义相似度数据集(LCQMC、BQ Corpus、PAWS-X) 的验证集中抽取出正例文本 Pair 生成评估集 same_semantic.tsv,其中第 1 列文本作为输入模型的源文本 Source Text、第 2 列文本作为语义相似的目标文本 Target Text。
抽取出开源语义相似度数据集(LCQMC、BQ Corpus、PAWS-X)训练集中的所有文本和验证集中所有文本 Pair 的第 2 列 Target Text 生成召回库 corpus_file
数据 | 描述 | 数量 | MD5 |
---|---|---|---|
每行为语义相似的文本 Pair 构成的训练集 |
222546 | 590286f695200160350cc5838cb34f00 | |
评估集(same_semantic.tsv) | 每行为语义相似文本 Pair 构成的评估集 | 10255 | 86ec1fd5234d944177574372dcf780c5 |
召回库(corpus_file) | 每行为单条文本构成的召回库 | 313714 | a3fbc3421b5aeb939809876fc7beeaa8 |
|—— train_batch_neg.py # In-batch negatives 策略的训练主脚本
|—— train_hardest_neg.py # HardestNeg 策略的训练主脚本
|—— batch_negative
|—— model.py # In-batch negatives 策略核心网络结构
|——hardest_negative
|—— model.py # HardestNeg 策略核心网络结构
|—— ann_util.py # Ann 建索引库相关函数
|—— base_model.py # 语义索引模型基类
|—— data.py # 数据读取、数据转换等预处理逻辑
|—— evaluate.py # 根据召回结果和评估集计算评估指标
|—— predict.py # 给定输入文件,计算文本 pair 的相似度
|—— recall.py # 基于训练好的语义索引模型,从召回库中召回给定文本的相似文本
基于 In-batch negatives 策略训练
以我们提供的语义相似度训练数据为例,通过如下命令,指定 GPU 0,1,2,3 卡, 基于 In-batch negatives 策略开始训练模型
python -u -m paddle.distributed.launch --gpus "0,1,2,3" \
train_batch_neg.py \
--device gpu \
--save_dir ./checkpoints/ \
--batch_size 64 \
--learning_rate 5E-5 \
--epochs 3 \
--output_emb_size 256 \
--save_steps 500 \
--max_seq_length 64 \
--margin 0.2 \
--train_set_file semantic_pair_train.tsv \
参数含义说明
device
: 使用 cpu/gpu 进行训练save_dir
: 模型存储路径output_emb_size
: Transformer 顶层输出的文本向量维度save_steps
: 模型存储 checkpoint 的间隔 steps 个数margin
: 正样本相似度与负样本之间的目标 Gaptrain_set_file
: 训练集文件
以我们提供的语义相似度训练集为例子,通过如下命令,指定 GPU 0,1,2,3 卡, 开始模型训练
python -u -m paddle.distributed.launch --gpus "0,1,2,3" \
train_hardest_neg.py \
--device gpu \
--save_dir ./checkpoints/ \
--batch_size 64 \
--learning_rate 5E-5 \
--epochs 3 \
--output_emb_size 256 \
--save_steps 500 \
--max_seq_length 64 \
--margin 0.2 \
--train_set_file semantic_pair_train.tsv \
语义索引模型的目标是: 给定输入文本,模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。
采用 Recall@10 和 Recall@50 指标来评估语义索引模型的召回效果
效果评估分为 3 个步骤:
-
ANN 建库 首先基于语义索引模型抽取出召回库的文本向量,然后使用 ANN 引擎建索引库(当前基于 hnswlib 进行 ANN 索引)
-
召回 基于语义索引模型抽取出评估集 Source Text 的文本向量,在第 1 步中建立的索引库中进行 ANN 查询召回 Top50 最相似的 Target Text, 产出评估集中 Source Text 的召回结果
recall_result
文件 -
评估: 基于评估集 same_semantic.tsv 和召回结果
recall_result
计算评估指标 R@10 和 R@50
运行如下命令进行 ANN 建库、召回,产出召回结果数据 recall_result
python -u -m paddle.distributed.launch --gpus "0" --log_dir "recall_log/" \
recall.py \
--device gpu \
--recall_result_dir "recall_result_dir" \
--recall_result_file "recall_result.txt" \
--params_path "${checkpoints_params_file}" \
--hnsw_m 100 \
--hnsw_ef 100 \
--batch_size 64 \
--output_emb_size 256\
--max_seq_length 60 \
--recall_num 50 \
--similar_text_pair "semantic_similar_pair.tsv" \
--corpus_file "corpus_file" \
参数含义说明
device
: 使用 cpu/gpu 进行训练recall_result_dir
: 召回结果存储目录recall_result_file
: 召回结果的文件名params_path
: 待评估模型的参数文件名hnsw_m
: hnsw 算法相关参数,保持默认即可hnsw_ef
: hnsw 算法相关参数,保持默认即可output_emb_size
: Transformer 顶层输出的文本向量维度recall_num
: 对 1 个文本召回的相似文本数量similar_text_pair
: 由相似文本对构成的评估集 semantic_similar_pair.tsvcorpus_file
: 召回库数据 corpus_file
成功运行结束后,会在 ./recall_result_dir/
目录下产出 recall_result.txt
文件,部分召回示例结果如下:
开初婚未育证明怎么弄? 初婚未育证明怎么开? 0.9878678917884827
开初婚未育证明怎么弄? 初婚未育情况证明怎么开? 0.955365777015686
开初婚未育证明怎么弄? 初婚未育证明在哪里办理 0.9508345723152161
开初婚未育证明怎么弄? 到哪里开初婚未育证明? 0.949864387512207
接下来,运行如下命令进行效果评估,产出 R@10 和 R@50 指标:
python -u evaluate.py \
--similar_pair_file "semantic_similar_pair.tsv" \
--recall_result_file "./recall_result_dir/recall_result.txt" \
--recall_num 50
参数含义说明
similar_text_pair
: 由相似文本对构成的评估集 semantic_similar_pair.tsvrecall_result_file
: 针对评估集中第一列文本 Source Text 的召回结果recall_num
: 对 1 个文本召回的相似文本数量
成功运行结束后,会输出如下评估指标, 分别为 R@10 和 R@50
51.2 67.242
我们可以基于语义索引模型抽取文本的语义向量或者计算文本 Pair 的语义相似度,我们以计算文本 Pair 的语义相似度为例:
待预测数据为 tab 分隔的 tsv 文件,每一行为 1 个文本 Pair,部分示例如下:
西安下雪了?是不是很冷啊? 西安的天气怎么样啊?还在下雪吗?
第一次去见女朋友父母该如何表现? 第一次去见家长该怎么做
猪的护心肉怎么切 猪的护心肉怎么吃
显卡驱动安装不了,为什么? 显卡驱动安装不了怎么回事
以上述 demo 数据为例,运行如下命令基于我们开源的 In-batch negatives 策略语义索引模型开始计算文本 Pair 的语义相似度:
python -u -m paddle.distributed.launch --gpus "0" \
predict.py \
--device gpu \
--params_path "./checkpoints/batch_neg_v1.0.0/model_state.pdparams" \
--output_emb_size 256
--batch_size 128 \
--max_seq_length 64 \
--text_pair_file ${your_input_file}
参数含义说明
device
: 使用 cpu/gpu 进行训练params_path
: 预训练模型的参数文件名output_emb_size
: Transformer 顶层输出的文本向量维度text_pair_file
: 由文本 Pair 构成的待预测数据集
产出如下结果
0.8121148943901062
0.6034126281738281
0.968634843826294
0.9800204038619995
不同于上述原生预测的是,使用FasterTransformer的预测是使用了集成了FasterTransformer库的Paddle自定算子,在一定的配置下,可以对TransformerEncoder的预测进行加速。
python -u -m paddle.distributed.launch --gpus "0" faster_predict.py \
--init_from_params "batch_neg_v1.0/model_state.pdparams" \
--output_emb_size 256 \
--batch_size 32 \
--max_seq_length 64 \
--text_pair_file ${your_input_file} \
执行上述操作后,可以得到与原生预测非常接近的结果,在float32下,且batch_size=32, max_seq_len=64时,二种方式预测下最终余弦相似度的最大绝对误差约为3.93e-6。
通过比较,可以得到在不同batch_size, max_seq_len下,使用集成了FasterTransformer的高性能算子可以对Encoder部分的推理进行加速(其余参数都与默认值相同)。在NVIDIA Tesla V100,16GB的机器上,使用单卡预测得到部分性能数据如下,从表中可以看出在更小的batch_size和max_seq_len上,使用FasterTransformer预测更有优势。
batch size | max_seq_len | FT加速算子(单位:s) | Paddle原生(单位:s) |
---|---|---|---|
16 | 16 | 22.645333290100098 | 51.55912470817566 |
16 | 32 | 27.326106071472168 | 57.17143130302429 |
16 | 64 | 33.31318140029907 | 52.44770574569702 |
32 | 16 | 12.891342163085938 | 22.621662139892578 |
32 | 32 | 17.206310987472534 | 22.18772006034851 |
简要介绍 In-batch negatives 策略和 HardestNeg 策略思路
In-batch negatives 核心思路
In-batch negatives 策略的训练数据为语义相似的 Pair 对,如下所示为 Batch size = 4 的训练数据样例:
我手机丢了,我想换个手机 我想买个新手机,求推荐
求秋色之空漫画全集 求秋色之空全集漫画
学日语软件手机上的 手机学日语的软件
侠盗飞车罪恶都市怎样改车 侠盗飞车罪恶都市怎么改车
In-batch negatives 策略核心是在 1 个 Batch 内同时基于 N 个负例进行梯度更新,将Batch 内除自身之外其它所有 Source Text 的相似文本 Target Text 作为负例,例如: 上例中 我手机丢了,我想换个手机
有 1 个正例(1.我想买个新手机,求推荐
),3 个负例(1.求秋色之空全集漫画
,2.手机学日语的软件
,3.侠盗飞车罪恶都市怎么改车
)。
HardestNeg 策略核心是在 1 个 Batch 内的所有负样本中先挖掘出最难区分的负样本,基于最难负样本进行梯度更新。例如: 上例中 Source Text: 我手机丢了,我想换个手机
有 3 个负例(1.求秋色之空全集漫画
,2.手机学日语的软件
,3.侠盗飞车罪恶都市怎么改车
),其中最难区分的负例是 手机学日语的软件
,模型训练过程中不断挖掘出类似这样的最难负样本,然后基于最难负样本进行梯度更新。
[1] Xin Liu, Qingcai Chen, Chong Deng, Huajun Zeng, Jing Chen, Dongfang Li, Buzhou Tang, LCQMC: A Large-scale Chinese Question Matching Corpus,COLING2018.
[2] Jing Chen, Qingcai Chen, Xin Liu, Haijun Yang, Daohe Lu, Buzhou Tang, The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification EMNLP2018.
[3] Yang, Y., Zhang, Y., Tar, C., and Baldridge, J., “PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification”, arXiv e-prints, 2019.
[4] Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih, Dense Passage Retrieval for Open-Domain Question Answering, Preprint 2020.