- 给一个prompt,GPT语言模型的推理过程,就是对每个token,并行的,一层一层的,按顺序算activation,last token的last layer activation接上LM_Head就是output logits了
- 这个过程中,几乎每个activation都是有意义的,因为它们都通过attention机制隐式的为last token提供信息,但不同activation的作用是不同的。
- 如何建模某个特定的activation以及某部分特定的参数的作用呢?
-
Notifications
You must be signed in to change notification settings - Fork 0
MaxLEAF3824/gpt_re
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published