GPT Reverse Engineering

Motivation

给一个prompt，GPT语言模型的推理过程，就是对每个token，并行的，一层一层的，按顺序算activation，last token的last layer activation接上LM_Head就是output logits了
这个过程中，几乎每个activation都是有意义的，因为它们都通过attention机制隐式的为last token提供信息，但不同activation的作用是不同的。
如何建模某个特定的activation以及某部分特定的参数的作用呢？

Token Flow Visualizer

模型是什么时候开始知道下一个词要填什么的？把预测过程打开看看！
把所有的activation都过一下LM_Head，得到一组token distribution，观察token distribution在activation前进中的发生的变化
只关注预测概率变化最大的token子集
- e.g. 预测“苹果的颜色”时，可能与苹果、颜色相关的token的概率分布才有较大改变，而”汽车“一词的概率全程可能都变化不大，期望只观察那些变化巨大的token分布
进一步：每个模块从input中获取了什么信息？mapping到了什么位置？