xorbitsai · aresnow1 · Sep 21, 2023 · Sep 21, 2023
diff --git a/xinference/model/llm/core.py b/xinference/model/llm/core.py
@@ -64,6 +64,12 @@ def _has_cuda_device():
 
         return cuda_count() > 0
 
+    @staticmethod
+    def _get_cuda_count():
+        from xorbits._mars.resource import cuda_count
+
+        return cuda_count()
+
     @abstractmethod
     def load(self):
         raise NotImplementedError

diff --git a/xinference/model/llm/vllm/core.py b/xinference/model/llm/vllm/core.py
@@ -105,9 +105,11 @@ def _sanitize_model_config(
         if model_config is None:
             model_config = VLLMModelConfig()
 
+        cuda_count = self._get_cuda_count()
+
         model_config.setdefault("tokenizer_mode", "auto")
         model_config.setdefault("trust_remote_code", False)
-        model_config.setdefault("tensor_parallel_size", 1)
+        model_config.setdefault("tensor_parallel_size", cuda_count)
         model_config.setdefault("block_size", 16)
         model_config.setdefault("swap_space", 4)
         model_config.setdefault("gpu_memory_utilization", 0.90)