GPT Reverse Engineering

Motivation

给一个prompt，GPT语言模型的推理过程，就是对每个token，并行的，一层一层的，按顺序算activation，last token的last layer activation接上LM_Head就是output logits了
这个过程中，几乎每个activation都是有意义的，因为它们都通过attention机制隐式的为last token提供信息，但不同activation的作用是不同的。
如何建模某个特定的activation以及某部分特定的参数的作用呢？

模型是什么时候开始知道下一个词要填什么的？把预测过程打开看看！
把所有的activation都过一下LM_Head，得到一组token distribution，观察token distribution在activation前进中的发生的变化
只关注预测概率变化最大的token子集
- e.g. 预测“苹果的颜色”时，可能与苹果、颜色相关的token的概率分布才有较大改变，而”汽车“一词的概率全程可能都变化不大，期望只观察那些变化巨大的token分布
进一步：每个模块从input中获取了什么信息？mapping到了什么位置？

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
dataset		dataset
model		model
output		output
scripts		scripts
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
dp.ipynb		dp.ipynb
hf_trainer.py		hf_trainer.py
mgpu_infer.py		mgpu_infer.py
prompt_opt.ipynb		prompt_opt.ipynb
re.ipynb		re.ipynb
test.py		test.py
vis.ipynb		vis.ipynb
wash.ipynb		wash.ipynb