WoBERT

以词为基本单位的中文BERT（Word-based BERT）

详情

训练

目前开源的WoBERT是Base版本，在哈工大开源的RoBERTa-wwm-ext基础上进行继续预训练，预训练任务为MLM。初始化阶段，将每个词用BERT自带的Tokenizer切分为字，然后用字embedding的平均作为词embedding的初始化。模型使用单张24G的RTX训练了100万步（大概训练了10天），序列长度为512，学习率为5e-6，batch_size为16，累积梯度16步，相当于batch_size=256训练了6万步左右。训练语料大概是30多G的通用型语料。

此外，我们还提供了WoNEZHA，这是基于华为开源的NEZHA进行再预训练的，训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似，不同的是它使用了相对位置编码，而BERT用的是绝对位置编码，因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA，就是让大家多一个选择。

2021年03月03日： 新增WoBERT Plus模型，以RoBERTa-wwm-ext为基础，中文MLM式预训练，重新构建词表（比已经开源的WoBERT更完善），30+G语料，maxlen=512，batch_size=256、lr=1e-5训练了25万步（4 * TITAN RTX，累积4步梯度，是之前的WoBERT的4倍），每1000步耗时约1580s，共训练了18天，训练acc约64%，训练loss约1.80。

依赖

pip install bert4keras==0.8.8

下载

WoBERT: chinese_wobert_L-12_H-768_A-12.zip
WoNEZHA: chinese_wonezha_L-12_H-768_A-12.zip
WoBERT⁺: chinese_wobert_plus_L-12_H-768_A-12.zip

评测

	IFLYTEK	TNEWS
BERT	60.31	56.94
WoBERT	61.15	57.05
WoBERT Plus	61.92	58.20

引用

Bibtex：

@techreport{zhuiyiwobert,
  title={WoBERT: Word-based Chinese BERT model - ZhuiyiAI},
  author={Jianlin Su},
  year={2020},
  url="https://github.com/ZhuiyiTechnology/WoBERT",
}

联系

邮箱：ai@wezhuiyi.com 追一科技：https://zhuiyi.ai

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
test		test
LICENSE		LICENSE
README.md		README.md
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WoBERT

详情

训练

依赖

下载

评测

引用

联系

About

Releases

Packages

Languages

License

ZhuiyiTechnology/WoBERT

Folders and files

Latest commit

History

Repository files navigation

WoBERT

详情

训练

依赖

下载

评测

引用

联系

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages