使用SeamlessM4T + Kaggle线上部署的方式翻译,并未人工进行校正,token总数7.8M(汉字数:3930639)。
{
"instruction": "考虑到这个数字序列, 预测模式中的下一个数字.",
"input": "3,7,11,15",
"output": "19"
}
包含instruction,input和output三部分,注意,input可以为空。
感谢项目切分的英文数据集:https://github.com/hikariming/alpaca_chinese_dataset/tree/main/