ModelCloud · Qubitium · Dec 4, 2024 · Dec 4, 2024 · Dec 4, 2024 · Dec 4, 2024
diff --git a/tests/models/model_test.py b/tests/models/model_test.py
@@ -22,7 +22,7 @@
 class ModelTest(unittest.TestCase):
     TASK_NAME = "arc_challenge"
     # sub test can modify
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.15  # -15%
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.15  # -15%
     QUANT_ARC_MAX_POSITIVE_DELTA = 0.2  # 20%
     TRUST_REMOTE_CODE = False
     APPLY_CHAT_TEMPLATE = False
@@ -221,7 +221,7 @@ def quant_lm_eval(self):
     def check_results(self, task_results):
         for filter, value in task_results.items():
             diff_pct = self.calculatorPer(filter=filter, value=value)
-            negative_pct = 100 * (1 - self.QUANT_ARC_MAX_NEGATIVE_DELTA)
+            negative_pct = 100 * (1 - self.QUANT_ARC_MAX_DELTA_FLOOR_PERCENT)
             positive_pct = 100 * (1 + self.QUANT_ARC_MAX_POSITIVE_DELTA)
             self.assertTrue(negative_pct <= diff_pct <= positive_pct,
                             f"{filter}: {value} diff {diff_pct:.2f}% is out of the expected range [{negative_pct}-{positive_pct}%]")
diff --git a/tests/models/test_cohere.py b/tests/models/test_cohere.py
@@ -5,7 +5,7 @@ class TestCohere(ModelTest):
     NATIVE_MODEL_ID = "/monster/data/model/aya-expanse-8b" # "CohereForAI/aya-expanse-8b"
     NATIVE_ARC_CHALLENGE_ACC = 0.5401
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.5640
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.12
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.15
     BATCH_SIZE = 4
 
     def test_cohere(self):

diff --git a/tests/models/test_deci.py b/tests/models/test_deci.py
@@ -5,7 +5,7 @@ class TestDeci(ModelTest):
     NATIVE_MODEL_ID = "/monster/data/model/DeciLM-7B-instruct" # "Deci/DeciLM-7B-instruct"
     NATIVE_ARC_CHALLENGE_ACC = 0.5239
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.5222
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.55
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.8
     TRUST_REMOTE_CODE = True
     USE_VLLM = False
     BATCH_SIZE = 6

diff --git a/tests/models/test_falcon.py b/tests/models/test_falcon.py
@@ -1,4 +1,5 @@
 import torch  # noqa: E402from tests.model_test import ModelTest
+
 from model_test import ModelTest
 
 
@@ -9,7 +10,7 @@ class TestFalcon(ModelTest):
     APPLY_CHAT_TEMPLATE = True
     TRUST_REMOTE_CODE = True
     TORCH_DTYPE = torch.float16
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.52
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.52
     BATCH_SIZE = 6
     USE_VLLM = False
 

diff --git a/tests/models/test_hymba.py b/tests/models/test_hymba.py
@@ -5,6 +5,7 @@ class TestHymba(ModelTest):
     NATIVE_MODEL_ID = "/monster/data/model/Hymba-1.5B-Instruct/"  # "baichuan-inc/Baichuan2-7B-Chat"
     NATIVE_ARC_CHALLENGE_ACC = 0.2073
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.2713
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.75
     MODEL_MAX_LEN = 8192
     TRUST_REMOTE_CODE = True
     APPLY_CHAT_TEMPLATE = True

diff --git a/tests/models/test_llama3_2.py b/tests/models/test_llama3_2.py
@@ -5,7 +5,7 @@ class TestLlama3_2(ModelTest):
     NATIVE_MODEL_ID = "/monster/data/model/Llama-3.2-1B-Instruct" # "meta-llama/Llama-3.2-1B-Instruct"
     NATIVE_ARC_CHALLENGE_ACC = 0.3567
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.3805
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.36
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.36
     APPLY_CHAT_TEMPLATE = True
     TRUST_REMOTE_CODE = True
 

diff --git a/tests/models/test_longllama.py b/tests/models/test_longllama.py
@@ -6,7 +6,7 @@ class TestLongLlama(ModelTest):
     NATIVE_ARC_CHALLENGE_ACC = 0.3515
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.3652
     TRUST_REMOTE_CODE = True
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.4
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.5
     USE_VLLM = False
 
     def test_longllama(self):

diff --git a/tests/models/test_qwen2_5.py b/tests/models/test_qwen2_5.py
@@ -3,7 +3,7 @@
 
 class TestQwen2_5(ModelTest):
     NATIVE_MODEL_ID = "/monster/data/model/Qwen2.5-0.5B-Instruct"
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.2
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.2
     NATIVE_ARC_CHALLENGE_ACC = 0.2739
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.3055
     TRUST_REMOTE_CODE = False

diff --git a/tests/test_asym_gptq_v1.py b/tests/test_asym_gptq_v1.py
@@ -12,7 +12,7 @@ class Test(ModelTest):
     NATIVE_MODEL_ID = "/monster/data/model/Llama-3.2-1B-Instruct"  # "meta-llama/Llama-3.2-1B-Instruct"
     NATIVE_ARC_CHALLENGE_ACC = 0.3567
     NATIVE_ARC_CHALLENGE_ACC_NORM = 0.3805
-    QUANT_ARC_MAX_NEGATIVE_DELTA = 0.36
+    QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.36
     QUANT_FORMAT = FORMAT.GPTQ
     SYM = False