New FTYPE IQ4_XXSR

Nexesenex · Nexesenex · commit ba1b8541ec0a · 2024-10-13T02:02:21.000+02:00
and beef up attn_k IQ4_XSR
diff --git a/examples/quantize/quantize.cpp b/examples/quantize/quantize.cpp
@@ -50,6 +50,7 @@ static const std::vector<struct quant_option> QUANT_OPTIONS = {
     { "Q3_K_XL",  LLAMA_FTYPE_MOSTLY_Q3_K_XL,  " 4.03G, +0.5562 ppl @ Llama-3-8B",  },
     { "IQ4_NL",   LLAMA_FTYPE_MOSTLY_IQ4_NL,   " 4.50 bpw non-linear quantization", },
     { "IQ4_XS",   LLAMA_FTYPE_MOSTLY_IQ4_XS,   " 4.25 bpw non-linear quantization", },
+    { "IQ4_XXSR", LLAMA_FTYPE_MOSTLY_IQ4_XXSR, " 4.xx bpw non-linear quantization", },
     { "IQ4_XSR",  LLAMA_FTYPE_MOSTLY_IQ4_XSR,  " 4.xx bpw non-linear quantization", },
     { "IQ4_MR",   LLAMA_FTYPE_MOSTLY_IQ4_MR,   " 4.xx bpw non-linear quantization", },
     { "IQ4_LR",   LLAMA_FTYPE_MOSTLY_IQ4_LR,   " 4.xx bpw non-linear quantization", },
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -1460,9 +1460,10 @@ class LlamaFileType(IntEnum):
     MOSTLY_IQ3_ML        = 45  # except 1d tensors
     MOSTLY_IQ3_XXXL      = 46  # except 1d tensors
     MOSTLY_IQ3_UXL       = 47  # except 1d tensors
-    MOSTLY_IQ4_XSR       = 48  # except 1d tensors
-    MOSTLY_IQ4_MR        = 49  # except 1d tensors
-    MOSTLY_IQ4_LR        = 50  # except 1d tensors
+    MOSTLY_IQ4_XXSR      = 48  # except 1d tensors
+    MOSTLY_IQ4_XSR       = 49  # except 1d tensors
+    MOSTLY_IQ4_MR        = 50  # except 1d tensors
+    MOSTLY_IQ4_LR        = 51  # except 1d tensors
     MOSTLY_CQS           = 99  # except 1d tensors
 
     GUESSED              = 1024  # not specified in the model file
diff --git a/include/llama.h b/include/llama.h
@@ -185,9 +185,10 @@ extern "C" {
         LLAMA_FTYPE_MOSTLY_IQ3_ML        = 45, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_IQ3_XXXL      = 46, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_IQ3_UXL       = 47, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_XSR       = 48, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_MR        = 49, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_LR        = 50, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_XXSR      = 48, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_XSR       = 49, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_MR        = 50, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_LR        = 51, // except 1d tensors
         LLAMA_FTYPE_CQS                  = 99, // except 1d tensors
 
         LLAMA_FTYPE_GUESSED = 1024, // not specified in the model file
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -5311,6 +5311,7 @@ static std::string llama_model_ftype_name(llama_ftype ftype) {
         case LLAMA_FTYPE_MOSTLY_IQ3_XXL:  return "IQ3_S mix - 3.95 bpw";
         case LLAMA_FTYPE_MOSTLY_IQ3_XXXL: return "IQ3_S mix - 4.05 bpw";
         case LLAMA_FTYPE_MOSTLY_IQ3_UXL:  return "IQ3_S mix - 4.15 bpw";
+        case LLAMA_FTYPE_MOSTLY_IQ4_XXSR: return "IQ4_XS mix - 4.xx bpw";
         case LLAMA_FTYPE_MOSTLY_IQ4_XSR:  return "IQ4_XS mix - 4.xx bpw";
         case LLAMA_FTYPE_MOSTLY_IQ4_MR:   return "IQ4_XS mix - 4.xx bpw";
         case LLAMA_FTYPE_MOSTLY_IQ4_LR:   return "IQ4_XS mix - 4.xx bpw";
@@ -18451,7 +18452,7 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2) new_type = GGML_TYPE_Q5_K;
             else new_type = GGML_TYPE_Q5_K;
         }
-        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ4_XSR) {
+        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ4_XXSR || ftype == LLAMA_FTYPE_MOSTLY_IQ4_XSR) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2) new_type = GGML_TYPE_Q6_K;
             else new_type = GGML_TYPE_Q5_K;
         }
@@ -18699,10 +18700,9 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
                 new_type = difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;
             else new_type = GGML_TYPE_IQ4_XS;
         }
-        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ4_XSR) {
+        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ4_XXSR || ftype == LLAMA_FTYPE_MOSTLY_IQ4_XSR) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2) {
-                new_type = qs.i_attention_wk < qs.n_attention_wk/8 ? GGML_TYPE_Q5_K :
-                            difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_Q5_K;
+                new_type = difquant_first_last_tensors(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q6_K : GGML_TYPE_Q5_K;
             }
             else new_type = GGML_TYPE_IQ4_XS;
         }
@@ -18877,6 +18877,11 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
                 new_type = difquant_first_last_tensors(qs.i_attention_wq, qs.n_attention_wq) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
             else new_type = GGML_TYPE_Q3_K;
         }
+        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ4_XXSR) {
+            if (qs.model.hparams.n_vocab >= 127999 && (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2))
+                new_type = difquant_first_last_tensors(qs.i_attention_wq, qs.n_attention_wq) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+            else new_type = GGML_TYPE_Q3_K;
+        }
         // else if (ftype == LLAMA_FTYPE_MOSTLY_IQ4_MR) {
             // if (qs.model.hparams.n_vocab >= 127999 && (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2))
                 // new_type = GGML_TYPE_IQ3_S;
@@ -19936,10 +19941,11 @@ static void llama_model_quantize_internal(const std::string & fname_inp, const s
         case LLAMA_FTYPE_MOSTLY_IQ1_M:   default_type = GGML_TYPE_IQ1_M;   break;
         case LLAMA_FTYPE_MOSTLY_IQ1_XL:  default_type = GGML_TYPE_IQ1_M;   break;
         case LLAMA_FTYPE_MOSTLY_IQ4_NL:  default_type = GGML_TYPE_IQ4_NL;  break;
+        case LLAMA_FTYPE_MOSTLY_IQ4_XXSR:
+        case LLAMA_FTYPE_MOSTLY_IQ4_XSR:
+        case LLAMA_FTYPE_MOSTLY_IQ4_MR:
+        case LLAMA_FTYPE_MOSTLY_IQ4_LR:
         case LLAMA_FTYPE_MOSTLY_IQ4_XS:  default_type = GGML_TYPE_IQ4_XS;  break;
-        case LLAMA_FTYPE_MOSTLY_IQ4_XSR: default_type = GGML_TYPE_IQ4_XS;  break;
-        case LLAMA_FTYPE_MOSTLY_IQ4_MR:  default_type = GGML_TYPE_IQ4_XS;  break;
-        case LLAMA_FTYPE_MOSTLY_IQ4_LR:  default_type = GGML_TYPE_IQ4_XS;  break;
         case LLAMA_FTYPE_MOSTLY_IQ3_S:   default_type = GGML_TYPE_IQ3_S;   break;
         case LLAMA_FTYPE_MOSTLY_IQ3_M:   default_type = GGML_TYPE_IQ3_S;   break;
         case LLAMA_FTYPE_MOSTLY_IQ3_ML:  default_type = GGML_TYPE_IQ3_S;   break;