通用数据如何筛选 #41

LuoKaiGSW · 2023-11-06T13:27:05Z

想问一下，通用数据ShareGPT_Vicuna_unfiltered有9w条，你们是如何筛选到5w条的？能提供一下脚本吗

Dhaizei · 2023-11-06T16:19:01Z

他们论文中是4：1，3.5和4的数据一起调的，ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据，比如开头一定要是human的才行，对话多长等等问题。
这个微调的数据量是不是有点少了呢，5W条？？

LuoKaiGSW · 2023-11-07T03:50:48Z

他们论文中是4：1，3.5和4的数据一起调的，ShareGPT_Vicuna_unfiltered里面并没有提示哪个是3.5和4。ShareGPT_Vicuna_unfiltered中有许多没法直接用的数据，比如开头一定要是human的才行，对话多长等等问题。这个微调的数据量是不是有点少了呢，5W条？？

看论文，作者应该是用的这个数据集，但是我看了这个数据也有9万条，不过是split以后的结果，如果不split的话应该是5万条左右，所以这种条数是指的没有split的数量是吗？

Reason-Wang · 2023-11-07T09:28:41Z

作者说内部版本对ShareGPT的来源标签，参考 #10 ，这个标签应该是没有公开

Dhaizei · 2023-11-13T05:07:00Z

你们试了作者开源的agentlm了吗，效果怎么样？？

LuoKaiGSW · 2023-11-24T02:36:11Z

你们试了作者开源的agentlm了吗，效果怎么样？？

我用论文中提到的构造数据的方式训了一版模型，测试了一下，效果不太稳定

Dhaizei · 2023-11-24T08:06:36Z

你的效果不太稳定是多少呢？在HH方面怎么样？我是自己训练了，也试用了他们的agentlm-13b

SHITIANYU-hue · 2024-01-24T20:01:34Z

请问有什么筛选这个数据的思路吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

通用数据如何筛选 #41

通用数据如何筛选 #41

LuoKaiGSW commented Nov 6, 2023 •

edited

Loading

Dhaizei commented Nov 6, 2023

LuoKaiGSW commented Nov 7, 2023

Reason-Wang commented Nov 7, 2023

Dhaizei commented Nov 13, 2023

LuoKaiGSW commented Nov 24, 2023

Dhaizei commented Nov 24, 2023

SHITIANYU-hue commented Jan 24, 2024

通用数据如何筛选 #41

通用数据如何筛选 #41

Comments

LuoKaiGSW commented Nov 6, 2023 • edited Loading

Dhaizei commented Nov 6, 2023

LuoKaiGSW commented Nov 7, 2023

Reason-Wang commented Nov 7, 2023

Dhaizei commented Nov 13, 2023

LuoKaiGSW commented Nov 24, 2023

Dhaizei commented Nov 24, 2023

SHITIANYU-hue commented Jan 24, 2024

LuoKaiGSW commented Nov 6, 2023 •

edited

Loading