Alpaca数据集中文翻译

使用SeamlessM4T + Kaggle线上部署的方式翻译，并未人工进行校正，token总数7.8M（汉字数：3930639）。

数据格式

{

"instruction": "考虑到这个数字序列, 预测模式中的下一个数字.",

"input": "3,7,11,15",

"output": "19"

}

包含instruction，input和output三部分，注意，input可以为空。

致谢

感谢项目切分的英文数据集：https://github.com/hikariming/alpaca_chinese_dataset/tree/main/