IQ3_XXXXL, EXL and renaming >=IQ3_ML scheme

Nexesenex · Nexesenex · commit 6c51f39b2393 · 2024-10-16T17:48:29.000+02:00
Test for Mistral Large

IQ3_XL = IQ3_X5L and so on.
diff --git a/examples/quantize/quantize.cpp b/examples/quantize/quantize.cpp
@@ -37,11 +37,13 @@ static const std::vector<struct quant_option> QUANT_OPTIONS = {
     { "IQ3_XXS",  LLAMA_FTYPE_MOSTLY_IQ3_XXS,  " 3.06 bpw quantization",            },
     { "IQ3_S",    LLAMA_FTYPE_MOSTLY_IQ3_S,    " 3.44 bpw quantization",            },
     { "IQ3_M",    LLAMA_FTYPE_MOSTLY_IQ3_M,    " 3.60 bpw quantization mix",        },
-    { "IQ3_ML",   LLAMA_FTYPE_MOSTLY_IQ3_ML,   " 3.75 bpw quantization mix",        },
-    { "IQ3_XL",   LLAMA_FTYPE_MOSTLY_IQ3_XL,   " 3.85 bpw quantization mix",        },
-    { "IQ3_XXL",  LLAMA_FTYPE_MOSTLY_IQ3_XXL,  " 3.95 bpw quantization mix",        },
-    { "IQ3_XXXL", LLAMA_FTYPE_MOSTLY_IQ3_XXXL, " 4.05 bpw quantization mix",        },
-    { "IQ3_UXL",  LLAMA_FTYPE_MOSTLY_IQ3_UXL,  " 4.15 bpw quantization mix",        },
+    { "IQ3_M3L",  LLAMA_FTYPE_MOSTLY_IQ3_M3L,  " 3.70 bpw quantization mix",        },
+    { "IQ3_X4L",  LLAMA_FTYPE_MOSTLY_IQ3_X4L,  " 3.80 bpw quantization mix",        },
+    { "IQ3_X5L",  LLAMA_FTYPE_MOSTLY_IQ3_X5L,  " 3.90 bpw quantization mix",        },
+    { "IQ3_X6L",  LLAMA_FTYPE_MOSTLY_IQ3_X6L,  " 4.00 bpw quantization mix",        },
+    { "IQ3_X7L",  LLAMA_FTYPE_MOSTLY_IQ3_X7L,  " 4.10 bpw quantization mix",        },
+    { "IQ3_EXL",  LLAMA_FTYPE_MOSTLY_IQ3_EXL,  " 4.15 bpw quantization mix",        },
+    { "IQ3_UXL",  LLAMA_FTYPE_MOSTLY_IQ3_UXL,  " 4.20 bpw quantization mix",        },
     { "Q3_K",     LLAMA_FTYPE_MOSTLY_Q3_K_M,   "alias for Q3_K_M"                   },
     { "IQ3_XS",   LLAMA_FTYPE_MOSTLY_IQ3_XS,   " 3.3 bpw quantization",             },
     { "Q3_K_S",   LLAMA_FTYPE_MOSTLY_Q3_K_S,   " 3.41G, +1.6321 ppl @ Llama-3-8B",  },
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -1450,22 +1450,24 @@ class LlamaFileType(IntEnum):
     MOSTLY_Q4_0_8_8      = 35  # except 1d tensors
     MOSTLY_TQ1_0         = 36  # except 1d tensors
     MOSTLY_TQ2_0         = 37  # except 1d tensors
-    MOSTLY_IQ2_XL        = 38  # except 1d tensors
-    MOSTLY_IQ3_XL        = 39  # except 1d tensors
-    MOSTLY_Q2_K_L        = 40  # except 1d tensors
-    MOSTLY_IQ1_XS        = 41  # except 1d tensors
-    MOSTLY_IQ1_XL        = 42  # except 1d tensors
-    MOSTLY_IQ3_XXL       = 43  # except 1d tensors
-    MOSTLY_Q3_K_XL       = 44  # except 1d tensors
-    MOSTLY_IQ3_ML        = 45  # except 1d tensors
-    MOSTLY_IQ3_XXXL      = 46  # except 1d tensors
-    MOSTLY_IQ3_UXL       = 47  # except 1d tensors
-    MOSTLY_IQ4_XXSR      = 48  # except 1d tensors
-    MOSTLY_IQ4_XSR       = 49  # except 1d tensors
-    MOSTLY_IQ4_MR        = 50  # except 1d tensors
-    MOSTLY_IQ4_LR        = 51  # except 1d tensors
-    MOSTLY_Q5_K_XL       = 52, # except 1d tensors
-    MOSTLY_CQS           = 99  # except 1d tensors
+    MOSTLY_IQ2_XL        = 100 # except 1d tensors
+    MOSTLY_Q2_K_L        = 101 # except 1d tensors
+    MOSTLY_IQ1_XS        = 102 # except 1d tensors
+    MOSTLY_IQ1_XL        = 103 # except 1d tensors
+    MOSTLY_IQ3_M3L       = 104 # except 1d tensors
+    MOSTLY_IQ3_X4L       = 105 # except 1d tensors
+    MOSTLY_IQ3_X5L       = 106 # except 1d tensors
+    MOSTLY_IQ3_X6L       = 107 # except 1d tensors
+    MOSTLY_IQ3_X7L       = 108 # except 1d tensors
+    MOSTLY_IQ3_EXL       = 109 # except 1d tensors
+    MOSTLY_IQ3_UXL       = 110 # except 1d tensors
+    MOSTLY_Q3_K_XL       = 111 # except 1d tensors
+    MOSTLY_IQ4_XXSR      = 112 # except 1d tensors
+    MOSTLY_IQ4_XSR       = 113 # except 1d tensors
+    MOSTLY_IQ4_MR        = 114 # except 1d tensors
+    MOSTLY_IQ4_LR        = 115 # except 1d tensors
+    MOSTLY_Q5_K_XL       = 116 # except 1d tensors
+    MOSTLY_CQS           = 199 # except 1d tensors
 
     GUESSED              = 1024  # not specified in the model file
 
diff --git a/include/llama.h b/include/llama.h
@@ -175,22 +175,24 @@ extern "C" {
         LLAMA_FTYPE_MOSTLY_Q4_0_8_8      = 35, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_TQ1_0         = 36, // except 1d tensors
         LLAMA_FTYPE_MOSTLY_TQ2_0         = 37, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ2_XL        = 38, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ3_XL        = 39, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_Q2_K_L        = 40, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ1_XS        = 41, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ1_XL        = 42, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ3_XXL       = 43, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_Q3_K_XL       = 44, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ3_ML        = 45, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ3_XXXL      = 46, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ3_UXL       = 47, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_XXSR      = 48, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_XSR       = 49, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_MR        = 50, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_IQ4_LR        = 51, // except 1d tensors
-        LLAMA_FTYPE_MOSTLY_Q5_K_XL       = 52, // except 1d tensors
-        LLAMA_FTYPE_CQS                  = 99, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ2_XL        = 100, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_Q2_K_L        = 101, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ1_XS        = 102, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ1_XL        = 103, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_M3L       = 104, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_X4L       = 105, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_X5L       = 106, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_X6L       = 107, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_X7L       = 108, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_EXL       = 109, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ3_UXL       = 110, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_Q3_K_XL       = 111, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_XXSR      = 112, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_XSR       = 113, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_MR        = 114, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_IQ4_LR        = 115, // except 1d tensors
+        LLAMA_FTYPE_MOSTLY_Q5_K_XL       = 116, // except 1d tensors
+        LLAMA_FTYPE_CQS                  = 199, // except 1d tensors
 
         LLAMA_FTYPE_GUESSED = 1024, // not specified in the model file
     };
diff --git a/src/llama.cpp b/src/llama.cpp