ai-dynamo · rmccorm4 · Aug 4, 2025
diff --git a/components/backends/trtllm/engine_configs/decode.yaml b/components/backends/trtllm/engine_configs/decode.yaml
@@ -28,4 +28,4 @@ kv_cache_config:
   free_gpu_memory_fraction: 0.95
 
 cache_transceiver_config:
-  backend: default
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_decode.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_decode.yaml
@@ -51,4 +51,7 @@ cuda_graph_config:
   - 128
   - 256
 
-print_iter_log: true
+print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_prefill.yaml
@@ -36,3 +36,6 @@ disable_overlap_scheduler: true
 speculative_config:
   decoding_type: MTP
   num_nextn_predict_layers: 1
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/simple/decode.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/simple/decode.yaml
@@ -55,3 +55,6 @@ cuda_graph_config:
   - 256
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/simple/prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/simple/prefill.yaml
@@ -33,4 +33,7 @@ kv_cache_config:
 # config field from 'enable_overlap_scheduler' to 'disable_overlap_scheduler':
 # https://github.com/NVIDIA/TensorRT-LLM/commit/b4e5df0ee0024eda3eeb83a6ba822245a30ab428
 disable_overlap_scheduler: true
-print_iter_log: true
+print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_decode.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_decode.yaml
@@ -61,3 +61,6 @@ cuda_graph_config:
 
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml
@@ -38,4 +38,7 @@ kv_cache_config:
 # config field from 'enable_overlap_scheduler' to 'disable_overlap_scheduler':
 # https://github.com/NVIDIA/TensorRT-LLM/commit/b4e5df0ee0024eda3eeb83a6ba822245a30ab428
 disable_overlap_scheduler: true
-print_iter_log: true
+print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle/eagle_decode.yaml b/components/backends/trtllm/engine_configs/llama4/eagle/eagle_decode.yaml
@@ -49,3 +49,6 @@ cuda_graph_config:
   - 256
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle/eagle_prefill.yaml b/components/backends/trtllm/engine_configs/llama4/eagle/eagle_prefill.yaml
@@ -34,3 +34,6 @@ speculative_config:
 kv_cache_config:
   free_gpu_memory_fraction: 0.5
   enable_block_reuse: false
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_decode.yaml b/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_decode.yaml
@@ -38,3 +38,6 @@ cuda_graph_config:
   max_batch_size: 256
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_prefill.yaml b/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_prefill.yaml
@@ -32,3 +32,6 @@ speculative_config:
 kv_cache_config:
   free_gpu_memory_fraction: 0.5
   enable_block_reuse: false
+
+cache_transceiver_config:
+  backend: default
Original file line number	Diff line number	Diff line change
Expand Up		@@ -61,3 +61,6 @@ cuda_graph_config:


		print_iter_log: true

		cache_transceiver_config:
		backend: default