ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重后对话内容和效果与没微调一样.. #1752

ghx2757 · 2023-12-06T09:48:58Z

1、合并权重log（感觉这里不太正常吖）

2、导出权重后参考这个方法替换了对应文件
3、没合并前用web端的chat载入微调模型和原始权重模型有微调效果

这个问题是什么导致的啊？感谢感谢

hiyouga · 2023-12-08T08:52:32Z

#1307 (comment)

ghx2757 · 2023-12-08T09:23:39Z

@hiyouga 非常感谢你的回复，#1307 (comment) 我的表述也许不是很清楚，以下是我的复现结果图：
模型已经经过微调了，和systerm-promot的写入影响不大吧，期待再次回复，谢谢！！

yintju03 · 2023-12-16T12:40:12Z

我也碰到完全一样的问题

dreammax2010 · 2023-12-18T13:08:51Z

和你情况一下，微调以后chat可以看到效果，导出模型以后加载进去，没有微调效果

GitYohoo · 2023-12-19T03:45:10Z

我也是同样的问题

dreammax2010 · 2023-12-20T13:48:33Z

1、llamafactory lora微调我用的数据是 self_cognition.json，把里面的<>全部删掉，web chat 测试通过以后导出模型
2、导出的模型全部拷贝到 langchain chatchat 模型目录下
3、修改tokenization_chatglm.py ，其他都不改
#@Property
#def unk_token(self) -> str:
# return ""

#@property
#def pad_token(self) -> str:
#    return "<unk>"

#@property
#def eos_token(self) -> str:
#    return "</s>"

4、启动 langchain chatchat 指定模型名 --model-name 模型名

5、langchain chatchat 测试正常

@hiyouga 非常感谢你的回复，#1307 (comment) 我的表述也许不是很清楚，以下是我的复现结果图：模型已经经过微调了，和systerm-promot的写入影响不大吧，期待再次回复，谢谢！！

ghx2757 · 2023-12-21T02:01:17Z

好的谢谢，llamafactory有api脚本，我在chatchat中使用目前是通过这个api，你提供的这个方法我试试，感谢感谢

GitYohoo · 2023-12-21T05:17:41Z

@dreammax2010 你好我按照你的方法做了为什么web chat 测试通过，但是langchan-chatchat还是无效
python startup.py -a --model-name chatglm3-6b

==============================Langchain-Chatchat Configuration==============================
操作系统：Linux-5.15.133.1-microsoft-standard-WSL2-x86_64-with-glibc2.35.
python版本：3.10.13 (main, Sep 11 2023, 13:44:35) [GCC 11.2.0]
项目版本：v0.2.8
langchain版本：0.0.344. fastchat版本：0.2.34

当前使用的分词器：ChineseRecursiveTextSplitter
当前启动的LLM模型：['chatglm3-6b'] @ cuda
{'device': 'cuda',
'host': '0.0.0.0',
'infer_turbo': False,
'model_path': '/home/llama/chatglm3-6b_lora',
'model_path_exists': True,
'port': 20002}
当前Embbedings模型： bge-large-zh @ cuda

而这个是webchat加载的模型，可以看到它确实是被微调过了

GitYohoo · 2023-12-21T10:44:50Z

@dreammax2010 chatglm2确实可以

jingzl · 2023-12-23T10:21:37Z

解决了吗？
用chatglm2-6b进行lora微调自我认知，导出模型后测试，没有问题。

用chatglm3-6b进行lora处理后，导出模型测试，出现同样的问题。按照楼上的几种方式修改后，web demo可以正常回答，但完全和微调前一样，微调没有效果。

GitYohoo · 2023-12-25T07:39:22Z

解决了吗？用chatglm2-6b进行lora微调自我认知，导出模型后测试，没有问题。

用chatglm3-6b进行lora处理后，导出模型测试，出现同样的问题。按照楼上的几种方式修改后，web demo可以正常回答，但完全和微调前一样，微调没有效果。

chatchat-space/Langchain-Chatchat#2354 (comment)

GhostMeng · 2024-01-02T23:31:35Z

这个作者的意思是在原本调用的system prompt中必须加入“You are ChatGLM3, a large language model trained by Zhipu.AI.
Follow the user's instructions carefully. Respond using markdown.”，因为查看template.py后会发现，微调lora模型的时候模板中会带着这段句子。不需要考虑这个句子的具体含义是什么意思，只要system prompt带有这个句子，chatglm3的认知修改就可以成功了，而web chat使用chatglm3的模型的时候模板会默认把这个句子带进去。而chatglm2的模板中刚好没有该语句
想要实现不输入system prompt不带这个句子就能实现认知替换的话，就把template.py中register_template对应chatglm3的system中的内容删除。
我实现的效果如下

feb-cloud · 2024-01-23T03:10:25Z

这个作者的意思是在原本调用的system prompt中必须加入“You are ChatGLM3， a large language model trained by Zhipu.AI.请仔细按照用户的说明进行操作。使用 markdown 进行响应。，因为查看 template.py 后会发现，微调lora模型的时候模板中会带着这段句子。不需要考虑这个句子的具体含义是什么意思，只要system prompt带有这个句子，chatglm3的认知修改就可以成功了，而web chat使用chatglm3的模型的时候模板会默认把这个句子带进去。而chatglm2的模板中刚好没有该语句想要实现不输入system prompt不带这个句子就能实现认知替换的话，就把 template.py 中register_template对应chatglm3的system中的内容删除。我实现的效果如下

你这个解释最靠谱👍

feb-cloud · 2024-01-23T03:43:17Z

这个作者的意思是在原本调用的system prompt中必须加入“You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's instructions carefully. Respond using markdown.”，因为查看template.py后会发现，微调lora模型的时候模板中会带着这段句子。不需要考虑这个句子的具体含义是什么意思，只要system prompt带有这个句子，chatglm3的认知修改就可以成功了，而web chat使用chatglm3的模型的时候模板会默认把这个句子带进去。而chatglm2的模板中刚好没有该语句想要实现不输入system prompt不带这个句子就能实现认知替换的话，就把template.py中register_template对应chatglm3的system中的内容删除。我实现的效果如下

我刚刚采用这个方法，把template.py中的default_system=""，导出后的效果还是没有效果，不知道哪里出现了问题。

GhostMeng · 2024-01-24T20:04:52Z

@BillowJiangCloud 格式应改为default_system=（“”），你看一下是否改正确了，新版本我测试了，这么修改使用没问题

AIfengstudy · 2024-01-25T08:39:38Z

请问你怎么使用（通过哪种方式？感谢回答！）

@BillowJiangCloud格式修改应改为default_system=（“”），你看一下是否改对了，新版本我测试了，这么用没问题

bryant03 · 2024-03-08T08:05:30Z

这个作者的意思是在原本调用的system prompt中必须加入“You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's instructions carefully. Respond using markdown.”，因为查看template.py后会发现，微调lora模型的时候模板中会带着这段句子。不需要考虑这个句子的具体含义是什么意思，只要system prompt带有这个句子，chatglm3的认知修改就可以成功了，而web chat使用chatglm3的模型的时候模板会默认把这个句子带进去。而chatglm2的模板中刚好没有该语句想要实现不输入system prompt不带这个句子就能实现认知替换的话，就把template.py中register_template对应chatglm3的system中的内容删除。我实现的效果如下

请问删除后要重新微调一遍模型么，期待您的回复。

GhostMeng · 2024-03-08T08:12:28Z

这个作者的意思是在原本调用的system prompt中必须加入“You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's instructions carefully. Respond using markdown.”，因为查看template.py后会发现，微调lora模型的时候模板中会带着这段句子。不需要考虑这个句子的具体含义是什么意思，只要system prompt带有这个句子，chatglm3的认知修改就可以成功了，而web chat使用chatglm3的模型的时候模板会默认把这个句子带进去。而chatglm2的模板中刚好没有该语句想要实现不输入system prompt不带这个句子就能实现认知替换的话，就把template.py中register_template对应chatglm3的system中的内容删除。我实现的效果如下

请问删除后要重新微调一遍模型么，期待您的回复。

是的，微调前删除，不然微调后的模型会带着这段话才能正常出效果

hiyouga · 2024-03-08T18:23:58Z

@GhostMeng 现在我们更新了 template，默认的 chatglm3 template 不会携带系统提示词，而 chatglm3_system template 才会携带

LittleWhiteRushRushRush · 2024-04-27T16:18:38Z

好的谢谢，llamafactory有api脚本，我在chatchat中使用目前是通过这个api，你提供的这个方法我试试，感谢感谢

请问您解决这个问题了吗？就是微调导出模型后没有效果

linjun0336 · 2024-10-15T09:10:22Z

我在使用LLaMA-Factory微调qwen2.5 7b的时候，也遇到了这样的问题，微调后，直接使用webui加载微调后的模型进行测试，微调是有效果的，但是用webui导出或者用指令导出后，都没有微调效果了，最后将学习率调大、学习次数变多了之后，再次微调导出之后，用qwen2.5官方的 python cli_demo.py 运行，就有微调效果了。参考一下呢

ghx2757 changed the title ~~ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重和没微调一样..~~ ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重后对话内容和效果与没微调一样.. Dec 6, 2023

hiyouga added the solved This problem has been already solved label Dec 8, 2023

hiyouga closed this as completed Dec 8, 2023

hiyouga mentioned this issue Dec 21, 2023

chatglm3训练完成选择适配器后加载模型未加载训练后的数据 #1943

Closed

1 task

Repository owner deleted a comment from dreammax2010 Mar 8, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重后对话内容和效果与没微调一样.. #1752

ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重后对话内容和效果与没微调一样.. #1752

ghx2757 commented Dec 6, 2023

hiyouga commented Dec 8, 2023

ghx2757 commented Dec 8, 2023

yintju03 commented Dec 16, 2023

dreammax2010 commented Dec 18, 2023

GitYohoo commented Dec 19, 2023

dreammax2010 commented Dec 20, 2023

ghx2757 commented Dec 21, 2023

GitYohoo commented Dec 21, 2023

GitYohoo commented Dec 21, 2023

jingzl commented Dec 23, 2023

GitYohoo commented Dec 25, 2023

GhostMeng commented Jan 2, 2024

feb-cloud commented Jan 23, 2024

feb-cloud commented Jan 23, 2024

GhostMeng commented Jan 24, 2024

AIfengstudy commented Jan 25, 2024

bryant03 commented Mar 8, 2024

GhostMeng commented Mar 8, 2024

hiyouga commented Mar 8, 2024

LittleWhiteRushRushRush commented Apr 27, 2024

linjun0336 commented Oct 15, 2024

ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重后对话内容和效果与没微调一样.. #1752

ChatGLM3-6b合并lora微调模型后，通过ChatGLM3-6b官方代码载入该合并后权重后对话内容和效果与没微调一样.. #1752

Comments

ghx2757 commented Dec 6, 2023

hiyouga commented Dec 8, 2023

ghx2757 commented Dec 8, 2023

yintju03 commented Dec 16, 2023

dreammax2010 commented Dec 18, 2023

GitYohoo commented Dec 19, 2023

dreammax2010 commented Dec 20, 2023

ghx2757 commented Dec 21, 2023

GitYohoo commented Dec 21, 2023

GitYohoo commented Dec 21, 2023

jingzl commented Dec 23, 2023

GitYohoo commented Dec 25, 2023

GhostMeng commented Jan 2, 2024

feb-cloud commented Jan 23, 2024

feb-cloud commented Jan 23, 2024

GhostMeng commented Jan 24, 2024

AIfengstudy commented Jan 25, 2024

bryant03 commented Mar 8, 2024

GhostMeng commented Mar 8, 2024

hiyouga commented Mar 8, 2024

LittleWhiteRushRushRush commented Apr 27, 2024

linjun0336 commented Oct 15, 2024