fix: Update disagg configs for trtllm 1.0.0rc4 changes (main) (#2278) (#2282)

rmccorm4 · web-flow · commit d537378a1f55 · 2025-08-05T00:24:39.000Z
diff --git a/components/backends/trtllm/engine_configs/decode.yaml b/components/backends/trtllm/engine_configs/decode.yaml
@@ -28,4 +28,4 @@ kv_cache_config:
   free_gpu_memory_fraction: 0.95
 
 cache_transceiver_config:
-  backend: default
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_decode.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_decode.yaml
@@ -51,4 +51,7 @@ cuda_graph_config:
   - 128
   - 256
 
-print_iter_log: true
+print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/mtp/mtp_prefill.yaml
@@ -36,3 +36,6 @@ disable_overlap_scheduler: true
 speculative_config:
   decoding_type: MTP
   num_nextn_predict_layers: 1
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/simple/decode.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/simple/decode.yaml
@@ -55,3 +55,6 @@ cuda_graph_config:
   - 256
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/simple/prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/simple/prefill.yaml
@@ -33,4 +33,7 @@ kv_cache_config:
 # config field from 'enable_overlap_scheduler' to 'disable_overlap_scheduler':
 # https://github.com/NVIDIA/TensorRT-LLM/commit/b4e5df0ee0024eda3eeb83a6ba822245a30ab428
 disable_overlap_scheduler: true
-print_iter_log: true
+print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_decode.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_decode.yaml
@@ -61,3 +61,6 @@ cuda_graph_config:
 
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml b/components/backends/trtllm/engine_configs/deepseek_r1/wide_ep/wide_ep_prefill.yaml
@@ -38,4 +38,7 @@ kv_cache_config:
 # config field from 'enable_overlap_scheduler' to 'disable_overlap_scheduler':
 # https://github.com/NVIDIA/TensorRT-LLM/commit/b4e5df0ee0024eda3eeb83a6ba822245a30ab428
 disable_overlap_scheduler: true
-print_iter_log: true
+print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle/eagle_decode.yaml b/components/backends/trtllm/engine_configs/llama4/eagle/eagle_decode.yaml
@@ -21,13 +21,13 @@ max_num_tokens: 512
 # 8704 = 8192 ISL + 512 OSL
 max_seq_len: 8704
 disable_overlap_scheduler: true
-autotuner_enabled: false
+enable_autotuner: false
 
 # Enable Speculative Decoding in the model engine
 speculative_config:
   decoding_type: Eagle
   max_draft_len: 1
-  pytorch_weights_path: nvidia/Llama-4-Maverick-17B-128E-Eagle3
+  speculative_model_dir: nvidia/Llama-4-Maverick-17B-128E-Eagle3
   eagle3_one_model: false
 
 kv_cache_config:
@@ -49,3 +49,6 @@ cuda_graph_config:
   - 256
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle/eagle_prefill.yaml b/components/backends/trtllm/engine_configs/llama4/eagle/eagle_prefill.yaml
@@ -20,17 +20,20 @@ max_batch_size: 1
 max_num_tokens: 8192
 max_seq_len: 8192
 print_iter_log: true
-kv_cache_dtype: fp8
 disable_overlap_scheduler: true
-autotuner_enabled: false
+enable_autotuner: false
 
 # Enable Speculative Decoding in the model engine
 speculative_config:
   decoding_type: Eagle
   max_draft_len: 1
-  pytorch_weights_path: nvidia/Llama-4-Maverick-17B-128E-Eagle3
+  speculative_model_dir: nvidia/Llama-4-Maverick-17B-128E-Eagle3
   eagle3_one_model: false
 
 kv_cache_config:
   free_gpu_memory_fraction: 0.5
   enable_block_reuse: false
+  dtype: fp8
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_agg.yml b/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_agg.yml
@@ -24,7 +24,7 @@ disable_overlap_scheduler: true # disable_overlap_scheduler is having acc issue
 speculative_config:
   decoding_type: Eagle
   max_draft_len: 3
-  pytorch_weights_path: nvidia/Llama-4-Maverick-17B-128E-Eagle3
+  speculative_model_dir: nvidia/Llama-4-Maverick-17B-128E-Eagle3
   eagle3_one_model: true
 
 kv_cache_config:
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_decode.yaml b/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_decode.yaml
@@ -26,7 +26,7 @@ disable_overlap_scheduler: true
 speculative_config:
   decoding_type: Eagle
   max_draft_len: 3
-  pytorch_weights_path: nvidia/Llama-4-Maverick-17B-128E-Eagle3
+  speculative_model_dir: nvidia/Llama-4-Maverick-17B-128E-Eagle3
   eagle3_one_model: True
 
 kv_cache_config:
@@ -38,3 +38,6 @@ cuda_graph_config:
   max_batch_size: 256
 
 print_iter_log: true
+
+cache_transceiver_config:
+  backend: default
diff --git a/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_prefill.yaml b/components/backends/trtllm/engine_configs/llama4/eagle_one_model/eagle_prefill.yaml
@@ -26,9 +26,12 @@ disable_overlap_scheduler: true
 speculative_config:
   decoding_type: Eagle
   max_draft_len: 3
-  pytorch_weights_path: nvidia/Llama-4-Maverick-17B-128E-Eagle3
+  speculative_model_dir: nvidia/Llama-4-Maverick-17B-128E-Eagle3
   eagle3_one_model: True
 
 kv_cache_config:
   free_gpu_memory_fraction: 0.5
   enable_block_reuse: false
+
+cache_transceiver_config:
+  backend: default