[Badcase]: Qwen 2.5:72b-instruct 在百炼平台或其他线上平台的表现比本地部署的 Ollama 模型更好,当输入字数过多时,ollama本地部署的模型会出现答非所问的情况。请问如何解决这个问题? #1137
When the character count approaches or exceeds 1500 (approximately), the locally deployed Ollama model starts giving irrelevant responses (not following the system prompt). However, when using the same prompts and messages through an API key to call the online model, this issue does not occur. |
it could be related to the quantization method or the Ollama implementation.
看看Ollama的num_ctx配置项是多少 |
I used ollama to load qwen2.5-32b-instruct-GGUF:q8_0, but it still resulted in too many characters and the answer was off-topic. |
大佬求指点,下面是模型信息 System License |
不太确定你的问题是不是由Ollama默认参数导致的。“By default, Ollama uses a context window size of 2048 tokens.” 解决方法: 1.导出模型文件 2.编辑模型文件添加如下参数: 3.根据模型文件创建新模型 |
太感谢了大佬,不会答非所问了,这个方法编辑模型的方法是在哪里说明的呀?大佬留个微信,请你喝杯咖啡 |
还想咨询一下大佬,ollama下载的模型智商和qwen官方的模型是一样的吗?我看ollama下载的72B模型 quantization只有Q4_K_M |
我也是在学习摸索阶段,有好多东西也是不懂。https://qwen.readthedocs.io/zh-cn/latest/benchmark/quantization_benchmark.html |
方便的话留个微信,请你喝杯咖啡,我也在学习这块 |
Model Series
What are the models used?
What is the scenario where the problem happened?
当字符数量接近或超过 1500 时,本地部署的 Ollama 模型开始出现答非所问的情况。然而,使用相同的提示词和消息,通过 API key 调用线上模型时,未出现类似问题。
Is this badcase known and can it be solved using avaiable techniques?
Information about environment
OS: Ubuntu 22.04
Python: Python 3.12.4
GPUs: 2 x NVIDIA A100
NVIDIA driver: 550.127.08
CUDA compiler: 12.4.131
PyTorch: 2.5.1
Steps to reproduce
当字符数量接近或超过 1500 时(大概值),本地部署的 Ollama 模型开始出现答非所问的情况(不按照系统提示词回答了)。然而,使用相同的提示词和消息,通过 API key 调用线上模型时,未出现类似问题。
