Correct IQ3_M

Nexesenex · Nexesenex · commit 503048a19771 · 2024-08-18T22:14:05.000+02:00
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -16045,8 +16045,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
-                new_type =  use_some_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;
-            else new_type = use_some_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
+                new_type =  use_few_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;
+            else new_type = use_few_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
         }	
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL) {
             if (qs.model.hparams.n_gqa() >= 2 || qs.model.hparams.n_expert >= 2)
@@ -16123,9 +16123,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n
                      : arch != LLM_ARCH_FALCON || use_more_bits(i_layer, n_layer) ? GGML_TYPE_Q4_K
                      : GGML_TYPE_Q3_K;
         }
-        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M && (use_some_bits(i_layer, n_layer) ||
-                (qs.model.hparams.n_expert >= 4 && use_more_bits(i_layer, n_layer)))) {
-            new_type = GGML_TYPE_Q4_K;
+        else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {
+                 new_type = use_few_bits(i_layer, n_layer) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;
         }
         else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL) {
                  new_type = use_some_bits(i_layer, n_layer) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;

Original file line number	Diff line number	Diff line change
`@@ -16045,8 +16045,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16045`	`16045`	`}`
`16046`	`16046`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
`16047`	`16047`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`16048`		`- new_type = use_some_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;`
`16049`		`- else new_type = use_some_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
	`16048`	`+ new_type = use_few_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_Q5_K : GGML_TYPE_IQ4_XS;`
	`16049`	`+ else new_type = use_few_bits(qs.i_attention_wk, qs.n_attention_wk) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16050`	`16050`	`}`
`16051`	`16051`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL) {`
`16052`	`16052`	`if (qs.model.hparams.n_gqa() >= 2 \|\| qs.model.hparams.n_expert >= 2)`
`@@ -16123,9 +16123,8 @@ static ggml_type llama_tensor_get_type(quantize_state_internal & qs, ggml_type n`
`16123`	`16123`	`: arch != LLM_ARCH_FALCON \|\| use_more_bits(i_layer, n_layer) ? GGML_TYPE_Q4_K`
`16124`	`16124`	`: GGML_TYPE_Q3_K;`
`16125`	`16125`	`}`
`16126`		`- else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M && (use_some_bits(i_layer, n_layer) \|\|`
`16127`		`- (qs.model.hparams.n_expert >= 4 && use_more_bits(i_layer, n_layer)))) {`
`16128`		`- new_type = GGML_TYPE_Q4_K;`
	`16126`	`+ else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_M) {`
	`16127`	`+ new_type = use_few_bits(i_layer, n_layer) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`
`16129`	`16128`	`}`
`16130`	`16129`	`else if (ftype == LLAMA_FTYPE_MOSTLY_IQ3_XL) {`
`16131`	`16130`	`new_type = use_some_bits(i_layer, n_layer) ? GGML_TYPE_IQ4_XS : GGML_TYPE_IQ3_S;`