MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 #1621

AkihikoWatanabe · 2024-12-28T03:47:43Z

https://medium.com/@zaiinn440/mha-vs-mqa-vs-gqa-vs-mla-c6cf8285bbec

AkihikoWatanabe · 2024-12-28T03:53:46Z

DeepSeekで使われているMulti Head Latent Attention（MLA）ってなんだ？と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく（むしろ上がるらしい？）、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。

AkihikoWatanabe · 2024-12-28T03:55:04Z

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 #1271

MQA, GQAの概要については上記参照のこと。

AkihikoWatanabe added Tutorial LanguageModel Attention labels Dec 28, 2024

AkihikoWatanabe added Article NLP labels Dec 28, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 #1621

MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 #1621

AkihikoWatanabe commented Dec 28, 2024

AkihikoWatanabe commented Dec 28, 2024 •

edited

Loading

AkihikoWatanabe commented Dec 28, 2024

MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 #1621

MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 #1621

Comments

AkihikoWatanabe commented Dec 28, 2024

AkihikoWatanabe commented Dec 28, 2024 • edited Loading

AkihikoWatanabe commented Dec 28, 2024

AkihikoWatanabe commented Dec 28, 2024 •

edited

Loading