-
Notifications
You must be signed in to change notification settings - Fork 21
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
飞书文档汇总训练数据中存在的问题 #79
Comments
颜文字表情 烤5分钟后盖锡纸哦(´-ω-`)', 直到全部完成✅ '这是我交作业的图,哈哈哈😄', '时间到就好啦,可以出炉了👌🏻']" |
input 主要是 " xxxx的做法, 会导致更换问法不能响应和搜索, 对同一个output采取不同的input问法, 来加强匹配准确度 如 |
都用红糖浆会满足强迫症处女座的内心.比如我~', '要彻底放凉再起糕哦', '因为没有一把锋利的刀.导致切的不完美!!啊啊啊啊!',
|
曾经上传了多本菜谱图书,好像是乐佬处理的。 |
下厨房数据集里包含一些表情符号以及dish信息以unknown作为菜名的描述,没有实现一一匹配,不利于后续提取关键信息或扩展数据集, |
等着可以让kimi试试处理我们的数据,好好写个prompt |
下厨房数据集里包含一些表情符号以及dish信息以unknown作为菜名的描述, 没有实现一一匹配,不利于后续提取关键信息或扩展数据集, 例如:"name": "超简单美味的番茄🍅口味火锅底料", "dish": "Unknown", dish这个本来是这道菜的一个关键词一类的东西 |
另一个数据举例 我在试用的时候,发现如果输入不是xx的做法,就会被告知,不会做,
|
飞书文档汇总训练数据中存在的问题
数据集链接:150万下厨房微调数据集:提取密码8489
带点数据用例,做点规定, 大家把更多的情形填进去
解决方法暂定为: 匹配模式,分类处理
数据集分段解析遇到的问题
solution: 最好是先过滤,后期想加再忘里加,
简单的做法是只保留中英文字符,推荐大家试试data-juicer,阿里的, 做一些规则设定,去重和过滤
主要就是因为下厨房的菜谱是各个作者自己上传的,各式各样,五花八门
模糊性(左右,大约,少许,适量)说法解决(数据规范化, 调成结构性数据):
【书生·浦语大模型实战营】二阶段:菜谱数据集食材部分的处理(尚未完成)
https://zhuanlan.zhihu.com/p/682745169
数据集这样的数据还不少
菜谱有很多说法,比如 100+-10g
基于规则处理下, ±的去掉,100g,
The text was updated successfully, but these errors were encountered: