neuralmagic · bfineran · Aug 20, 2024 · Aug 20, 2024 · Oct 2, 2024 · kylesayrs
diff --git a/src/compressed_tensors/compressors/model_compressor.py b/src/compressed_tensors/compressors/model_compressor.py
@@ -188,6 +188,10 @@ def parse_quantization_config(compression_config: Dict) -> Union[Dict, None]:
         if hasattr(compression_config, QUANTIZATION_CONFIG_NAME):
             # for loaded HFQuantizer config
             return getattr(compression_config, QUANTIZATION_CONFIG_NAME)
+        elif isinstance(compression_config, dict) and (
+            QUANTIZATION_CONFIG_NAME in compression_config
+        ):
+            return compression_config[QUANTIZATION_CONFIG_NAME]
 
         # SparseAutoModel format
         quantization_config = deepcopy(compression_config)

diff --git a/src/compressed_tensors/quantization/observers/helpers.py b/src/compressed_tensors/quantization/observers/helpers.py
@@ -38,9 +38,9 @@ def get_observer_token_count(module: torch.nn.Module) -> Counter:
     token_counts = Counter()
     for name, module in module.named_modules():
         if name.endswith(".input_observer"):
-            token_counts[name.replace(".input_observer", "")] = (
-                module._num_observed_tokens
-            )
+            token_counts[
+                name.replace(".input_observer", "")
+            ] = module._num_observed_tokens
     return token_counts
 
 

diff --git a/src/compressed_tensors/utils/offload.py b/src/compressed_tensors/utils/offload.py
@@ -13,7 +13,7 @@
 # limitations under the License.
 
 import torch
-from torch.nn import Module
+from torch.nn import Module, Parameter
 
 
 __all__ = [
@@ -100,7 +100,19 @@ def update_parameter_data(
 
     parameter = getattr(module, param_name, None)
     dtype = parameter.dtype
-    parameter.data = new_param_data.to(device).to(dtype)
+    try:
+        parameter.data = new_param_data.to(device).to(dtype)
+    except RuntimeError:
+        # exception may occur when trying to overwrite meta device, overriding
+        # parameter directly
+        setattr(
+            module,
+            param_name,
+            Parameter(
+                data=new_param_data.to(device).to(dtype),
+                requires_grad=parameter.requires_grad,
+            ),
+        )
 
     if offloaded:
         prefix_dict = module._hf_hook.weights_map.dataset