GitHub - skyhawk1990/gpt2-ml: GPT2 for Multiple Languages, including pretrained models. GPT2 多语言支持, 15亿参数中文预训练模型

GPT2 for Multiple Languages

中文说明 | English

Simplified GPT2 train scripts（based on Grover, supporting TPUs）
Ported bert tokenizer，multilingual corpus compatible
1.5B GPT2 pretrained Chinese model ( ~15G corpus, 10w steps )
Batteries-included Colab demo #
1.5B GPT2 pretrained Chinese model ( ~50G corpus, 100w steps )

Pretrained Model

1.5B GPT2 pretrained Chinese model [Google Drive]

Corpus from THUCNews and nlp_chinese_corpus

Using Cloud TPU Pod v3-256 to train 10w steps

Google Colab

With just 3 clicks (not including Colab auth process), the 1.5B pretrained Chinese model demo is ready to go：

[Colab Notebook]

Train

Disclaimer

The contents in this repository are for academic research purpose, and we do not provide any conclusive remarks.

Citing

@misc{GPT2-ML,
  author = {Zhibo Zhang},
  title = {GPT2-ML: GPT-2 for Multiple Languages},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/imcaspar/gpt2-ml}},
}

Reference

https://github.com/google-research/bert

https://github.com/rowanz/grover

Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
.github		.github
3rd/gdown.pl		3rd/gdown.pl
configs		configs
dataset		dataset
scripts		scripts
tokenization		tokenization
train		train
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
README_CN.md		README_CN.md
pretrained_model_demo.ipynb		pretrained_model_demo.ipynb
requirements-gpu.txt		requirements-gpu.txt
requirements-tpu.txt		requirements-tpu.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GPT2 for Multiple Languages

Pretrained Model

Google Colab

Train

Disclaimer

Citing

Reference

About

Releases

Packages

Languages

License

skyhawk1990/gpt2-ml

Folders and files

Latest commit

History

Repository files navigation

GPT2 for Multiple Languages

Pretrained Model

Google Colab

Train

Disclaimer

Citing

Reference

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages