-
Notifications
You must be signed in to change notification settings - Fork 22
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
chatglm的结果 #2
Comments
能提供一个Patch吗,直接换了ChatGLM,attention mask那个地方报错了。不知道怎么搞.
|
个人感觉比预期中好了哈哈,感谢提供。 |
我记得原文也提到“李某某”,所以模型回答“李某某”也无可厚非,倒是Pharmasset的收购价格答错了。 |
我不知道大家是不是有什么误解。。。NBCE是提供了一种long context的方案,但实际上能有多long,肯定是取决于你的显存的啊。 NBCE对显存的需求,关于context长度来说是线性的,这在理论效率上已经是最优的了。也就是说,假如你原本2048的长度,用掉了24G显存,那么要想处理4096,那么就需要48G,如果想处理8192长度,那么就需要96G显存,这应该都是很自然的结果吧(假如忽略模型自身参数的显存占用)。。。 我认为这不能算叫做“比较耗显存”,只是“正常耗显存”,如果长度乘以2,显存消耗要乘以4,那才是“比较耗显存”。 当然,也可以不增加显存,只要修改脚本,改为串行(而不是batch)地计算每个sample的结果,然后再按NBCE的公式融合,这样显存是不增加了,但是每个token的生成时间增加了,看你实际怎么取舍了。 这就好比阅读一本书,跟阅读一页书,总不能是相同的成本吧,要不你花更多的时间去读,要不你请更多的人一起读,无他。。。 |
如果是这样的话,这种方式与Langchain做map reduce相比有啥优势呢? |
更加简单直接 |
The text was updated successfully, but these errors were encountered: