请问在预训练时，如何保持书籍等数据的换行符号？如何把书籍切成block？ #1891

erichuazhou · 2023-12-19T01:13:28Z

请大神指教：
(1) 我在pt阶段的数据是大量书籍和文件数据，有大量的换行符，无法构造成wiki_demo.txt或者json格式，请问如何处理？
(2) 请问group texts的流程是怎么样的？各个block在预训练之前进行shuffle了吗？
(3) 如果是多个txt文件，会在切成多个block之后混合进行shuffle吗？
感谢。
@hiyouga

hiyouga · 2023-12-19T02:10:25Z

json 格式允许换行符，通过转义字符可解决
会 shuffle

erichuazhou · 2023-12-19T02:20:39Z

请问下，
(1)我每本书籍转为json，需要进行切分吗？还是每本书对应于json一行？
(2)如果每本书需要切分，block大小需要和程序内部data_args.cutoff_len设为一样对吗？谢谢

感谢大神
@hiyouga

FoolMark · 2023-12-20T03:22:42Z

请问下， (1)我每本书籍转为json，需要进行切分吗？还是每本书对应于json一行？ (2)如果每本书需要切分，block大小需要和程序内部data_args.cutoff_len设为一样对吗？谢谢

感谢大神 @hiyouga

我的解决方法是同一个文本里换行符变成\t然后组成一行，LLaMA-Factory中的方法是一行当作一个sample，然后每个sample自动切成cutoff_len这个长度的若干sample用于训练(最后一个好像是丢弃的)
如果支持json我想应该是和sft那种数据组织方式一样，一条数据放在一个key下面就行了不用手动切，不过我没试过...
另外我也有问题要请教一下，请问你用的是哪个base model？继续 pretrain时候是否需要指定template？我用chatglm3-base 做 pt （全量参数）后导出的模型的tokenizer没法导入.
参考 [Link] (chatglm3 微调完成之后导出成功，但无法加载 #1307 (comment)) 的做法后微调得到的base模型可以续写生成，但是似乎无法结束，每次生成都会到max_new_length
我还在debug中...

Zombiessss · 2023-12-27T08:24:26Z

json 格式允许换行符，通过转义字符可解决会 shuffle

流式加载也会shuffle吗？当前做继续预训练的数据量很大一下子吃不进去的时候，感觉流式没法shuffle呀，只能前置把数据集自己shuffle好

hiyouga · 2023-12-27T08:25:29Z

@Zombiessss 流式会 shuffle 一部分

hiyouga added the solved This problem has been already solved label Dec 19, 2023

hiyouga closed this as completed Dec 19, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问在预训练时，如何保持书籍等数据的换行符号？如何把书籍切成block？ #1891

请问在预训练时，如何保持书籍等数据的换行符号？如何把书籍切成block？ #1891

erichuazhou commented Dec 19, 2023

hiyouga commented Dec 19, 2023

erichuazhou commented Dec 19, 2023

FoolMark commented Dec 20, 2023

Zombiessss commented Dec 27, 2023

hiyouga commented Dec 27, 2023

请问在预训练时，如何保持书籍等数据的换行符号？如何把书籍切成block？ #1891

请问在预训练时，如何保持书籍等数据的换行符号？如何把书籍切成block？ #1891

Comments

erichuazhou commented Dec 19, 2023

hiyouga commented Dec 19, 2023

erichuazhou commented Dec 19, 2023

FoolMark commented Dec 20, 2023

Zombiessss commented Dec 27, 2023

hiyouga commented Dec 27, 2023