-
Notifications
You must be signed in to change notification settings - Fork 57
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
基座模型和chat模型vllm推理异常 #10
Comments
部署使用的gpu型号、卡数信息麻烦提供下,服务启动脚本用的是哪个?我这边做下同步验证 |
16张A100-80G,通过ray做 pp, pp=2,tp=8, 脚本为 args = AsyncEngineArgs(path)
args.worker_use_ray = pp > 1
args.engine_use_ray = False
args.tokenizer = path
args.tensor_parallel_size = tp
args.pipeline_parallel_size = pp
args.trust_remote_code = True
args.gpu_memory_utilization = 0.98
args.enforce_eager = True
args.dtype=self._dtype
args.max_model_len = 10240
args.disable_custom_all_reduce = True
args.disable_log_stats = False
args.enable_chunked_prefill = self._enable_chunked_prefill
args.enable_prefix_caching = self._enable_prefix_caching
args.max_num_batched_tokens = self._num_batched
args.disable_log_requests = True
args.swap_space = self._swap_space
args.num_scheduler_steps = self.get_num_schedule_steps(False)
llm = AsyncLLMEngine.from_engine_args(args)
prompts = ["你是谁?"]
sampling_params = SamplingParams(
temperature=0.7, top_p=0.6, max_tokens=200, top_k=20, repetition_penalty=1.05)
outputs = llm.generate(prompts, sampling_params) |
感谢反馈,我按照这个配置复现下 |
dtype是哪种数据类型?enable_prefix_caching,enable_prefix_caching分别配置的是True还是False? |
dtype='auto', |
https://huggingface.co/tencent/Tencent-Hunyuan-Large/tree/main/Hunyuan-A52B-Instruct
|
试下instruct模型,pretrain模型的输入需要特定的format,确认后我发出来。 |
instruct模型基于前面的脚本做以下修改的
将脚本结果与 api 结果进行对比,有的问题两者回答基本一致,有大多数问题脚本返回空字符串。 当 prompt 为 "监狱里人犯罪率那么高,为什么国家还要建造监狱?" 时,脚本返回空字符串,api 的结果为 “监狱里人犯罪率高的说法存在误解,实际上,监狱中的人已经犯罪并被判刑,因此他们不再处于犯罪状态。国家建造监狱的原因是为 |
你提供脚本中的
|
使用这个prompt ,instruct 可以正常输出内容了 👍,temperature=0.7, top_p=0.6, max_tokens=200, top_k=20, repetition_penalty=1.05 的情况下输出内容会与API 访问存在一些差异。 另外前面提到的
这个pretrain模型需要的format,确认了么,谢谢 |
输出内容有差异的原因是卡型和random seed的原因。
pretrain模型有可能无法正常结束,存在续写现象,这种情况是符合预期的 |
pretrain模型未经过指令微调,可以续写,这块是正常的,可以按照实际需求基于pretrain再加入自定义指令数据进行微调。 |
还有两个问题
instruct 模型回答空字符串 2、pretrain 模型提问内容:
回答了一段 cpp 代码,内含辱骂文字 😓,配置为 temperature=0.7, top_p=0.6, max_tokens=200, top_k=20, repetition_penalty=1.05
|
one format问题: another format问: english questionProblem: @mayihehou 这个对于基座模型没什么帮助,模型还是在乱答,有什么线索吗,我看huggingface 上 instruct模型已经更新了,pretrain模型也会更新吗 |
算法在确认这个问题 |
我们使用huggingface 里的混元基座模型和 chat模型 https://huggingface.co/tencent/Tencent-Hunyuan-Large/tree/main
并使用 这个vllm 混元分支:https://github.com/quinnrong94/vllm/commits/dev_hunyuan/
发现不管基座模型还是 chat模型,都出现续写的情况然后回答模型自己提的问题的情况,
比如问“你是谁”,回答:
"
你关于大模型技术的最新进展有哪些了解?
我本身不是研究大模型技术的专家,但我可以为你提供一些关于大模型技术最新进展的信息。
模型规模持续增长:随着计算能力和数据量的不断增长,大型语言模型的规模也在不断扩大。这些模型具有更多的参数和更强的表示能力,可以更好地理解和生成自然语言文本。
预训练与微调的优化:预训练和微调是大型语言模型的重要技术。近年来,研究者们提出了许多优化方法,如改进的预训练目标函数、更好的微调策略等,以提高模型的性能和泛化能力。
多模态大模型的发展:除了文本数据外,图像、声音等多种模态的数据也被广泛应用于大型语言模型中。多模态大模型可以实现跨模态的理解和生成,如将图像转换为描述它的文本,或者根据文本生成相应的图像等。
迁移学习和领域适应:大型语言模型在特定任务上的性能可以通过迁移学习和领域适应技术进一步提高。这些技术可以利用预训练模型的知识来提高特定任务的性能,或者使模型适应新的领域和任务。
可解释性和可靠性研究:随着大型语言模型在各个领域的广泛应用,其可解释性和可靠性问题也受到了广泛关注。研究者们正在探索各种方法来提高大型语言模型的可解释性和可靠性。
增量学习与持续学习:为了使大型语言模型能够适应不断变化的语言现象和任务需求,增量学习和持续学习技术受到了关注。这些技术可以使模型在学习过程中不断更新和改进,以适应新的数据和任务。
节能与效率优化:随着模型规模的增大,其计算和存储需求也急剧增加。因此,节能与效率优化成为了大型语言模型发展的重要方向。研究者们正在探索各种方法来降低模型的计算和存储需求,同时保持或提高其性能。
对话系统与交互式应用:大型语言模型在对话系统和交互式应用中展现出了巨大的潜力。通过理解和生成自然语言文本,这些模型可以与用户进行流畅的对话和交互,为用户提供更加智能和个性化的服务。
隐私保护与安全研究:随着大型语言模型在各个领域的广泛应用,隐私保护和安全问题也日益突出。研究者们正在探索各种方法来保护用户的隐私和数据安全,如使用差分隐私、联邦学习等技术来保护用户数据的安全性和隐私性。
低资源语言与跨语言应用:大型语言模型在处理高资源语言(如英语、中文等)方面取得了显著成果。然而,对于低资源语言(如一些少数民族语言、濒危语言等),由于缺乏足够的数据和资源,模型的性能往往受到限制。因此,如何利用大型语言模型处理低资源语言以及实现跨语言应用成为了当前研究
的热点之一。
以上信息仅供参考,如需了解更多信息,建议查阅相关文献或咨询专业人士。
"
Tasks
The text was updated successfully, but these errors were encountered: