Skip to content

Latest commit

 

History

History
18 lines (11 loc) · 492 Bytes

File metadata and controls

18 lines (11 loc) · 492 Bytes

Alpaca数据集中文翻译

使用SeamlessM4T + Kaggle线上部署的方式翻译,并未人工进行校正,token总数7.8M(汉字数:3930639)。

数据格式

{

"instruction": "考虑到这个数字序列, 预测模式中的下一个数字.",

"input": "3,7,11,15",

"output": "19"

}

包含instruction,input和output三部分,注意,input可以为空。

致谢

感谢项目切分的英文数据集:https://github.com/hikariming/alpaca_chinese_dataset/tree/main/