Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

通用数据如何筛选 #41

Open
LuoKaiGSW opened this issue Nov 6, 2023 · 7 comments
Open

通用数据如何筛选 #41

LuoKaiGSW opened this issue Nov 6, 2023 · 7 comments

Comments

@LuoKaiGSW
Copy link

LuoKaiGSW commented Nov 6, 2023

想问一下,通用数据ShareGPT_Vicuna_unfiltered有9w条,你们是如何筛选到5w条的?能提供一下脚本吗

@Dhaizei
Copy link

Dhaizei commented Nov 6, 2023

他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。
这个微调的数据量是不是有点少了呢,5W条??

@LuoKaiGSW
Copy link
Author

他们论文中是4:1,3.5和4的数据一起调的,ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据,比如开头一定要是human的才行,对话多长等等问题。 这个微调的数据量是不是有点少了呢,5W条??

看论文,作者应该是用的这个数据集,但是我看了这个数据也有9万条,不过是split以后的结果,如果不split的话应该是5万条左右,所以这种条数是指的没有split的数量是吗?

@Reason-Wang
Copy link

作者说内部版本对ShareGPT的来源标签,参考 #10 ,这个标签应该是没有公开

@Dhaizei
Copy link

Dhaizei commented Nov 13, 2023

你们试了作者开源的agentlm了吗,效果怎么样??

@LuoKaiGSW
Copy link
Author

你们试了作者开源的agentlm了吗,效果怎么样??

我用论文中提到的构造数据的方式训了一版模型,测试了一下,效果不太稳定

@Dhaizei
Copy link

Dhaizei commented Nov 24, 2023

你的效果不太稳定是多少呢?在HH方面怎么样?我是自己训练了,也试用了他们的agentlm-13b

@SHITIANYU-hue
Copy link

请问有什么筛选这个数据的思路吗?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants