We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
ggerganov/llama.cpp#630 将大型LLM与小型LLM相结合,以加快推理速度 #630 打开 格尔加诺夫打开了这个问题 on Mar 31 ·27 评论 评论 @ggerganov 所有者 格尔加诺夫评论 on Mar 31 所以我在考虑以下想法。 这可能完全是假的,但我肯定会在有时间的时候调查它,所以也许其他人也会感兴趣。
大型LLM需要花费大量时间来执行令牌推理。假设每个令牌需要 500 毫秒。
小型LLM(或其他方法)可以非常快速地推断令牌。假设< 5 毫秒。
让我们假设小LLM在80-90%的情况下是正确的。
思路如下:
在为下一个令牌运行大型 LLM 推理之前,我使用小型 LLM 进行推断 我现在想以某种方式部分评估大型LLM(假设层的前10%)并获得下一个令牌的近似估计值 如果这个估计表明该代币的概率很高(即高于某个阈值) - 我们停止并直接说这是新代币。在这一点上,我们将消耗(小型LLM为5ms + 大型LLM为~50ms) 否则,我们继续评估大型LLM的其余层 在所描述的过程中,对于 10-20% 的令牌,我只会到达步骤 4,但对于其余的 - 我将采用步骤 3 中的快捷方式。 因此,我将对大型LLM进行有效的推断。
显然,最大的问题是第 2 步是否可行。 我想答案是否定的,但谁知道呢。
The text was updated successfully, but these errors were encountered:
No branches or pull requests
ggerganov/llama.cpp#630
将大型LLM与小型LLM相结合,以加快推理速度 #630
打开
格尔加诺夫打开了这个问题 on Mar 31 ·27 评论
评论
@ggerganov
所有者
格尔加诺夫评论 on Mar 31
所以我在考虑以下想法。
这可能完全是假的,但我肯定会在有时间的时候调查它,所以也许其他人也会感兴趣。
大型LLM需要花费大量时间来执行令牌推理。假设每个令牌需要 500 毫秒。
小型LLM(或其他方法)可以非常快速地推断令牌。假设< 5 毫秒。
让我们假设小LLM在80-90%的情况下是正确的。
思路如下:
在为下一个令牌运行大型 LLM 推理之前,我使用小型 LLM 进行推断
我现在想以某种方式部分评估大型LLM(假设层的前10%)并获得下一个令牌的近似估计值
如果这个估计表明该代币的概率很高(即高于某个阈值) - 我们停止并直接说这是新代币。在这一点上,我们将消耗(小型LLM为5ms + 大型LLM为~50ms)
否则,我们继续评估大型LLM的其余层
在所描述的过程中,对于 10-20% 的令牌,我只会到达步骤 4,但对于其余的 - 我将采用步骤 3 中的快捷方式。
因此,我将对大型LLM进行有效的推断。
显然,最大的问题是第 2 步是否可行。
我想答案是否定的,但谁知道呢。
The text was updated successfully, but these errors were encountered: