flashinfer-ai · yzh119 · Jun 24, 2025 · Jun 23, 2025 · Jun 24, 2025 · Jun 24, 2025
@@ -31,6 +31,7 @@
 from .quantization import gen_quantization_module
 from .rope import gen_rope_module
 from .sampling import gen_sampling_module
+from .tllm_utils import get_trtllm_utils_spec
 from .utils import version_at_least
 
 
@@ -537,38 +538,7 @@ def main():
         )
     ]
     if has_sm90:
-        jit_specs.append(
-            gen_jit_spec(
-                "trtllm_utils",
-                [
-                    jit_env.FLASHINFER_CSRC_DIR
-                    / "nv_internal"
-                    / "tensorrt_llm"
-                    / "kernels"
-                    / "delayStream.cu",
-                ],
-                extra_include_paths=[
-                    jit_env.FLASHINFER_CSRC_DIR / "nv_internal",
-                    jit_env.FLASHINFER_CSRC_DIR / "nv_internal" / "include",
-                    jit_env.FLASHINFER_CSRC_DIR
-                    / "nv_internal"
-                    / "tensorrt_llm"
-                    / "cutlass_extensions"
-                    / "include",
-                    jit_env.FLASHINFER_CSRC_DIR
-                    / "nv_internal"
-                    / "tensorrt_llm"
-                    / "kernels"
-                    / "internal_cutlass_kernels"
-                    / "include",
-                    jit_env.FLASHINFER_CSRC_DIR
-                    / "nv_internal"
-                    / "tensorrt_llm"
-                    / "kernels"
-                    / "internal_cutlass_kernels",
-                ],
-            ),
-        )
+        jit_specs.append(get_trtllm_utils_spec())
     jit_specs += gen_all_modules(
         f16_dtype_,
         f8_dtype_,

@@ -11,7 +11,7 @@
 
 # from tensorrt_llm.bindings.internal.runtime import delay_kernel
 # from tensorrt_llm.logger import logger
-from flashinfer.utils import delay_kernel
+from flashinfer.tllm_utils import delay_kernel
 
 from .jit.core import logger
 

@@ -0,0 +1,47 @@
+import functools
+
+from .jit import env as jit_env
+from .jit import gen_jit_spec
+
+
+def get_trtllm_utils_spec():
+    return gen_jit_spec(
+        "trtllm_utils",
+        [
+            jit_env.FLASHINFER_CSRC_DIR
+            / "nv_internal/tensorrt_llm/kernels/delayStream.cu",
+            jit_env.FLASHINFER_CSRC_DIR / "nv_internal/cpp/common/envUtils.cpp",
+            jit_env.FLASHINFER_CSRC_DIR / "nv_internal/cpp/common/logger.cpp",
+            jit_env.FLASHINFER_CSRC_DIR / "nv_internal/cpp/common/stringUtils.cpp",
+            jit_env.FLASHINFER_CSRC_DIR / "nv_internal/cpp/common/tllmException.cpp",
+        ],
+        extra_include_paths=[
+            jit_env.FLASHINFER_CSRC_DIR / "nv_internal",
+            jit_env.FLASHINFER_CSRC_DIR / "nv_internal" / "include",
+            jit_env.FLASHINFER_CSRC_DIR
+            / "nv_internal"
+            / "tensorrt_llm"
+            / "cutlass_extensions"
+            / "include",
+            jit_env.FLASHINFER_CSRC_DIR
+            / "nv_internal"
+            / "tensorrt_llm"
+            / "kernels"
+            / "internal_cutlass_kernels"
+            / "include",
+            jit_env.FLASHINFER_CSRC_DIR
+            / "nv_internal"
+            / "tensorrt_llm"
+            / "kernels"
+            / "internal_cutlass_kernels",
+        ],
+    )
+
+
+@functools.cache
+def get_trtllm_utils_module():
+    return get_trtllm_utils_spec().build_and_load()
+
+
+def delay_kernel(stream_delay_micro_secs):
+    get_trtllm_utils_module().delay_kernel(stream_delay_micro_secs)
@@ -14,7 +14,6 @@
 limitations under the License.
 """
 
-import functools
 import math
 import os
 from enum import Enum
@@ -25,9 +24,6 @@
 from torch.torch_version import TorchVersion
 from torch.torch_version import __version__ as torch_version
 
-from .jit import env as jit_env
-from .jit import gen_jit_spec
-
 IS_BUILDING_DOCS = os.environ.get("FLASHINFER_BUILDING_DOCS") == "1"
 
 
@@ -471,41 +467,6 @@ def set_log_level(lvl_str: str) -> None:
     get_logging_module().set_log_level(log_level_map[lvl_str].value)
 
 
-@functools.cache
-def get_trtllm_utils_module():
-    return gen_jit_spec(
-        "trtllm_utils",
-        [
-            jit_env.FLASHINFER_CSRC_DIR
-            / "nv_internal/tensorrt_llm/kernels/delayStream.cu",
-        ],
-        extra_include_paths=[
-            jit_env.FLASHINFER_CSRC_DIR / "nv_internal",
-            jit_env.FLASHINFER_CSRC_DIR / "nv_internal" / "include",
-            jit_env.FLASHINFER_CSRC_DIR
-            / "nv_internal"
-            / "tensorrt_llm"
-            / "cutlass_extensions"
-            / "include",
-            jit_env.FLASHINFER_CSRC_DIR
-            / "nv_internal"
-            / "tensorrt_llm"
-            / "kernels"
-            / "internal_cutlass_kernels"
-            / "include",
-            jit_env.FLASHINFER_CSRC_DIR
-            / "nv_internal"
-            / "tensorrt_llm"
-            / "kernels"
-            / "internal_cutlass_kernels",
-        ],
-    ).build_and_load()
-
-
-def delay_kernel(stream_delay_micro_secs):
-    get_trtllm_utils_module().delay_kernel(stream_delay_micro_secs)
-
-
 def device_support_pdl(device: torch.device) -> bool:
     major, _ = get_compute_capability(device)
     return major >= 9