You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Multi-query attention (MQA), which only uses a single key-value head,drastically speeds up decoder inference. However, MQA can lead to qualitydegradation, and moreover it may not be desirable to train a separate modeljust for faster inference. We (1) propose a recipe for uptraining existingmulti-head language model checkpoints into models with MQA using 5% of originalpre-training compute, and (2) introduce grouped-query attention (GQA), ageneralization of multi-query attention which uses an intermediate (more thanone, less than number of query heads) number of key-value heads. We show thatuptrained GQA achieves quality close to multi-head attention with comparablespeed to MQA.
AkihikoWatanabe
changed the title
a
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head
Checkpoints, Joshua Ainslie+, N/A, arXiv'23
Apr 7, 2024
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
ただし、MQAは品質の低下を引き起こす可能性があり、さらには、より速い推論のためだけに別個のモデルをトレーニングすることが望ましくない場合もあります。
私たちは、既存のマルチヘッド言語モデルのチェックポイントを、オリジナルの事前トレーニング計算量の5%を使用してMQAを持つモデルにアップトレーニングするためのレシピを提案し、
さらに、複数のkey-value headを使用するマルチクエリアテンションの一般化であるグループ化クエリアテンション(GQA)を紹介します。
私たちは、アップトレーニングされたGQAが、MQAと同等の速度でマルチヘッドアテンションに匹敵する品質を達成することを示しています。
Summary (by gpt-3.5-turbo)
ただし、MQAは品質の低下を引き起こす可能性があり、さらには、より速い推論のためだけに別個のモデルをトレーニングすることが望ましくない場合もあります。
既存のマルチヘッド言語モデルのチェックポイントを、オリジナルの事前トレーニング計量の5%を使用してMQAを持つモデルにアップトレーニングするためのレシピを提案し、
さらに、複数のkey-value headを使用するマルチクエリアテンションの一般化であるグループ化クエリアテンション(GQA)を紹介します。
アップトレーニングされたGQAが、MQAと同等の速度でマルチヘッドアテンションに匹敵する品質を達成することを示しています。
The text was updated successfully, but these errors were encountered: