-
Notifications
You must be signed in to change notification settings - Fork 95
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
通用数据如何筛选 #41
Comments
他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 |
看论文,作者应该是用的这个数据集,但是我看了这个数据也有9万条,不过是split以后的结果,如果不split的话应该是5万条左右,所以这种条数是指的没有split的数量是吗? |
作者说内部版本对ShareGPT的来源标签,参考 #10 ,这个标签应该是没有公开 |
你们试了作者开源的agentlm了吗,效果怎么样?? |
我用论文中提到的构造数据的方式训了一版模型,测试了一下,效果不太稳定 |
你的效果不太稳定是多少呢?在HH方面怎么样?我是自己训练了,也试用了他们的agentlm-13b |
请问有什么筛选这个数据的思路吗? |
想问一下,通用数据ShareGPT_Vicuna_unfiltered有9w条,你们是如何筛选到5w条的?能提供一下脚本吗
The text was updated successfully, but these errors were encountered: