[Bug]: Qwen3-Next-80B-A3B-Thinking fails to load with CPU offload

### Your current environment

<details>
<summary>The output of <code>python collect_env.py</code></summary>

```text
Collecting environment information...
==============================
        System Info
==============================
OS                           : Ubuntu 24.04.3 LTS (x86_64)
GCC version                  : (Ubuntu 13.3.0-6ubuntu2~24.04) 13.3.0
Clang version                : Could not collect
CMake version                : version 3.28.3
Libc version                 : glibc-2.39

==============================
       PyTorch Info
==============================
PyTorch version              : 2.8.0+cu128
Is debug build               : False
CUDA used to build PyTorch   : 12.8
ROCM used to build PyTorch   : N/A

==============================
      Python Environment
==============================
Python version               : 3.12.3 (main, Aug 14 2025, 17:47:21) [GCC 13.3.0] (64-bit runtime)
Python platform              : Linux-6.14.0-33-generic-x86_64-with-glibc2.39

==============================
       CUDA / GPU Info
==============================
Is CUDA available            : True
CUDA runtime version         : 12.0.140
CUDA_MODULE_LOADING set to   : LAZY
GPU models and configuration : 
GPU 0: NVIDIA GeForce RTX 3090
GPU 1: NVIDIA GeForce RTX 3090
GPU 2: NVIDIA GeForce RTX 3090
GPU 3: NVIDIA GeForce RTX 4090
GPU 4: NVIDIA GeForce RTX 3090

Nvidia driver version        : 580.82.07
cuDNN version                : Could not collect
HIP runtime version          : N/A
MIOpen runtime version       : N/A
Is XNNPACK available         : True

==============================
          CPU Info
==============================
Architecture:                            x86_64
CPU op-mode(s):                          32-bit, 64-bit
Address sizes:                           48 bits physical, 48 bits virtual
Byte Order:                              Little Endian
CPU(s):                                  128
On-line CPU(s) list:                     0-127
Vendor ID:                               AuthenticAMD
Model name:                              AMD EPYC 7C13 64-Core Processor
CPU family:                              25
Model:                                   1
Thread(s) per core:                      2
Core(s) per socket:                      64
Socket(s):                               1
Stepping:                                1
Frequency boost:                         enabled
CPU(s) scaling MHz:                      45%
CPU max MHz:                             3720.7029
CPU min MHz:                             1500.0000
BogoMIPS:                                3999.72
Flags:                                   fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid extd_apicid aperfmperf rapl pni pclmulqdq monitor ssse3 fma cx16 pcid sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_llc mwaitx cpb cat_l3 cdp_l3 hw_pstate ssbd mba ibrs ibpb stibp vmmcall fsgsbase bmi1 avx2 smep bmi2 erms invpcid cqm rdt_a rdseed adx smap clflushopt clwb sha_ni xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local user_shstk clzero irperf xsaveerptr rdpru wbnoinvd amd_ppin brs arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold v_vmsave_vmload vgif v_spec_ctrl umip pku ospke vaes vpclmulqdq rdpid overflow_recov succor smca fsrm debug_swap
Virtualization:                          AMD-V
L1d cache:                               2 MiB (64 instances)
L1i cache:                               2 MiB (64 instances)
L2 cache:                                32 MiB (64 instances)
L3 cache:                                256 MiB (8 instances)
NUMA node(s):                            1
NUMA node0 CPU(s):                       0-127
Vulnerability Gather data sampling:      Not affected
Vulnerability Ghostwrite:                Not affected
Vulnerability Indirect target selection: Not affected
Vulnerability Itlb multihit:             Not affected
Vulnerability L1tf:                      Not affected
Vulnerability Mds:                       Not affected
Vulnerability Meltdown:                  Not affected
Vulnerability Mmio stale data:           Not affected
Vulnerability Reg file data sampling:    Not affected
Vulnerability Retbleed:                  Not affected
Vulnerability Spec rstack overflow:      Mitigation; Safe RET
Vulnerability Spec store bypass:         Mitigation; Speculative Store Bypass disabled via prctl
Vulnerability Spectre v1:                Mitigation; usercopy/swapgs barriers and __user pointer sanitization
Vulnerability Spectre v2:                Mitigation; Retpolines; IBPB conditional; IBRS_FW; STIBP always-on; RSB filling; PBRSB-eIBRS Not affected; BHI Not affected
Vulnerability Srbds:                     Not affected
Vulnerability Tsx async abort:           Not affected

==============================
Versions of relevant libraries
==============================
[pip3] numpy==2.2.6
[pip3] nvidia-cublas-cu12==12.8.4.1
[pip3] nvidia-cuda-cupti-cu12==12.8.90
[pip3] nvidia-cuda-nvrtc-cu12==12.8.93
[pip3] nvidia-cuda-runtime-cu12==12.8.90
[pip3] nvidia-cudnn-cu12==9.10.2.21
[pip3] nvidia-cufft-cu12==11.3.3.83
[pip3] nvidia-cufile-cu12==1.13.1.3
[pip3] nvidia-curand-cu12==10.3.9.90
[pip3] nvidia-cusolver-cu12==11.7.3.90
[pip3] nvidia-cusparse-cu12==12.5.8.93
[pip3] nvidia-cusparselt-cu12==0.7.1
[pip3] nvidia-nccl-cu12==2.27.3
[pip3] nvidia-nvjitlink-cu12==12.8.93
[pip3] nvidia-nvtx-cu12==12.8.90
[pip3] pyzmq==27.1.0
[pip3] torch==2.8.0
[pip3] torchaudio==2.8.0
[pip3] torchvision==0.23.0
[pip3] transformers==4.57.0.dev0
[pip3] triton==3.4.0
[conda] Could not collect

==============================
         vLLM Info
==============================
ROCM Version                 : Could not collect
Neuron SDK Version           : N/A
vLLM Version                 : 0.11.0rc2.dev98+g96ebcaa3a (git sha: 96ebcaa3a)
vLLM Build Flags:
  CUDA Archs: Not Set; ROCm: Disabled; Neuron: Disabled
GPU Topology:
  	GPU0	GPU1	GPU2	GPU3	GPU4	CPU Affinity	NUMA Affinity	GPU NUMA ID
GPU0	 X 	NODE	NODE	NODE	NODE	0-127	0		N/A
GPU1	NODE	 X 	PHB	NODE	NODE	0-127	0		N/A
GPU2	NODE	PHB	 X 	NODE	NODE	0-127	0		N/A
GPU3	NODE	NODE	NODE	 X 	PHB	0-127	0		N/A
GPU4	NODE	NODE	NODE	PHB	 X 	0-127	0		N/A

Legend:

  X    = Self
  SYS  = Connection traversing PCIe as well as the SMP interconnect between NUMA nodes (e.g., QPI/UPI)
  NODE = Connection traversing PCIe as well as the interconnect between PCIe Host Bridges within a NUMA node
  PHB  = Connection traversing PCIe as well as a PCIe Host Bridge (typically the CPU)
  PXB  = Connection traversing multiple PCIe bridges (without traversing the PCIe Host Bridge)
  PIX  = Connection traversing at most a single PCIe bridge
  NV#  = Connection traversing a bonded set of # NVLinks

==============================
     Environment Variables
==============================
PYTORCH_NVML_BASED_CUDA_CHECK=1
TORCHINDUCTOR_COMPILE_THREADS=1
CUDA_MODULE_LOADING=LAZY

```

</details>


### 🐛 Describe the bug

I am attempting to load Qwen3-Next-80B-A3B-Thinking on a system with 120 GB VRAM + 512 GB RAM. No workee

```bash
#!/bin/bash
export HF_HUB_CACHE="/srv/huggingface"
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export CUDA_VISIBLE_DEVICES=0,1,2,3,4
export OMP_NUM_THREADS=60
source ~/.virtualenvs/vllm/bin/activate
export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libtcmalloc_minimal.so.4:$LD_PRELOAD # prepend the library to LD_PRELOAD
vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking \
     --dtype auto \
     --pipeline-parallel-size 5 \
     -tp 1 \
     --cpu-offload-gb 50 \
     --max-model-len 10K \
     --max-num-seqs 16 \
     --no-enable-chunked-prefill \
     --enforce-eager \
     --speculative-config '{"method": "qwen3_next_mtp", "num_speculative_tokens": 2}'
```

Error logs:

```text
INFO 10-03 20:29:55 [__init__.py:216] Automatically detected platform cuda.
(APIServer pid=10323) INFO 10-03 20:29:58 [api_server.py:1839] vLLM API server version 0.11.0rc2.dev98+g96ebcaa3a
(APIServer pid=10323) INFO 10-03 20:29:58 [utils.py:233] non-default args: {'model_tag': 'Qwen/Qwen3-Next-80B-A3B-Thinking', 'host': '192.168.90.109', 'port': 8080, 'model': 'Qwen/Qwen3-Next-80B-A3B-Thinking', 'max_model_len': 10240, 'enforce_eager': True, 'pipeline_parallel_size': 5, 'cpu_offload_gb': 50.0, 'max_num_seqs': 16, 'enable_chunked_prefill': False, 'speculative_config': {'method': 'qwen3_next_mtp', 'num_speculative_tokens': 2}}
(APIServer pid=10323) INFO 10-03 20:29:59 [model.py:551] Resolved architecture: Qwen3NextForCausalLM
(APIServer pid=10323) `torch_dtype` is deprecated! Use `dtype` instead!
(APIServer pid=10323) INFO 10-03 20:29:59 [model.py:1538] Using max model len 10240
(APIServer pid=10323) WARNING 10-03 20:29:59 [speculative.py:213] method `qwen3_next_mtp` is deprecated and replaced with mtp.
(APIServer pid=10323) INFO 10-03 20:29:59 [model.py:551] Resolved architecture: Qwen3NextMTP
(APIServer pid=10323) INFO 10-03 20:29:59 [model.py:1538] Using max model len 262144
(APIServer pid=10323) WARNING 10-03 20:29:59 [speculative.py:327] Enabling num_speculative_tokens > 1 will runmultiple times of forward on same MTP layer,which may result in lower acceptance rate
(APIServer pid=10323) INFO 10-03 20:29:59 [scheduler.py:222] Chunked prefill is enabled with max_num_batched_tokens=2048.
(APIServer pid=10323) INFO 10-03 20:29:59 [config.py:297] Hybrid or mamba-based model detected: disabling prefix caching since it is not yet supported.
(APIServer pid=10323) INFO 10-03 20:29:59 [config.py:308] Hybrid or mamba-based model detected: setting cudagraph mode to FULL_AND_PIECEWISE in order to optimize performance.
(APIServer pid=10323) INFO 10-03 20:30:00 [config.py:376] Setting attention block size to 560 tokens to ensure that attention page size is >= mamba page size.
(APIServer pid=10323) INFO 10-03 20:30:00 [config.py:397] Padding mamba page size by 1.45% to ensure that mamba page size and attention page size are exactly equal.
(APIServer pid=10323) INFO 10-03 20:30:00 [vllm.py:345] Cudagraph is disabled under eager mode
INFO 10-03 20:30:03 [__init__.py:216] Automatically detected platform cuda.
(EngineCore_DP0 pid=10474) INFO 10-03 20:30:06 [core.py:648] Waiting for init message from front-end.
(EngineCore_DP0 pid=10474) INFO 10-03 20:30:06 [core.py:78] Initializing a V1 LLM engine (v0.11.0rc2.dev98+g96ebcaa3a) with config: model='Qwen/Qwen3-Next-80B-A3B-Thinking', speculative_config=SpeculativeConfig(method='mtp', model='Qwen/Qwen3-Next-80B-A3B-Thinking', num_spec_tokens=2), tokenizer='Qwen/Qwen3-Next-80B-A3B-Thinking', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=10240, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=5, data_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=True, kv_cache_dtype=auto, device_config=cuda, structured_outputs_config=StructuredOutputsConfig(backend='auto', disable_fallback=False, disable_any_whitespace=False, disable_additional_properties=False, reasoning_parser=''), observability_config=ObservabilityConfig(show_hidden_metrics_for_version=None, otlp_traces_endpoint=None, collect_detailed_traces=None), seed=0, served_model_name=Qwen/Qwen3-Next-80B-A3B-Thinking, enable_prefix_caching=False, chunked_prefill_enabled=True, pooler_config=None, compilation_config={'level': 0, 'debug_dump_path': None, 'cache_dir': '', 'backend': '', 'custom_ops': [], 'splitting_ops': None, 'use_inductor': True, 'compile_sizes': [], 'inductor_compile_config': {'enable_auto_functionalized_v2': False}, 'inductor_passes': {}, 'cudagraph_mode': <CUDAGraphMode.NONE: 0>, 'use_cudagraph': False, 'cudagraph_num_of_warmups': 0, 'cudagraph_capture_sizes': [], 'cudagraph_copy_inputs': False, 'full_cuda_graph': False, 'use_inductor_graph_partition': False, 'pass_config': {}, 'max_capture_size': 0, 'local_cache_dir': None}
(EngineCore_DP0 pid=10474) INFO 10-03 20:30:06 [shm_broadcast.py:289] vLLM message queue communication handle: Handle(local_reader_ranks=[0, 1, 2, 3, 4], buffer_handle=(5, 16777216, 10, 'psm_edcf6d26'), local_subscribe_addr='ipc:///tmp/0106e72d-5a8d-4f9b-8432-6e2cbff0deb3', remote_subscribe_addr=None, remote_addr_ipv6=False)
INFO 10-03 20:30:09 [__init__.py:216] Automatically detected platform cuda.
INFO 10-03 20:30:09 [__init__.py:216] Automatically detected platform cuda.
INFO 10-03 20:30:09 [__init__.py:216] Automatically detected platform cuda.
INFO 10-03 20:30:09 [__init__.py:216] Automatically detected platform cuda.
INFO 10-03 20:30:09 [__init__.py:216] Automatically detected platform cuda.
[...]
(Worker_PP2 pid=10606) WARNING 10-03 20:30:53 [fused_moe.py:798] Using default MoE config. Performance might be sub-optimal! Config file not found at ['/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_GeForce_RTX_3090.json']
(Worker_PP4 pid=10608) WARNING 10-03 20:30:53 [fused_moe.py:798] Using default MoE config. Performance might be sub-optimal! Config file not found at ['/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/model_executor/layers/fused_moe/configs/E=512,N=512,device_name=NVIDIA_GeForce_RTX_3090.json']
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671] WorkerProc hit an exception.
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP3 pid=10607) ERROR 10-03 20:30:53 [multiproc_executor.py:671] 
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671] WorkerProc hit an exception.
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP2 pid=10606) ERROR 10-03 20:30:53 [multiproc_executor.py:671] 
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671] WorkerProc hit an exception.
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP1 pid=10605) ERROR 10-03 20:30:53 [multiproc_executor.py:671] 
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671] WorkerProc hit an exception.
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3270, in _dummy_run
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.drafter.dummy_run(num_tokens)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/spec_decode/eagle.py", line 986, in dummy_run
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model(
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/compilation/decorators.py", line 225, in __call__
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return self.forward(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/model_executor/models/qwen3_next_mtp.py", line 257, in forward
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     hidden_states = self.model(input_ids, positions, hidden_states,
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/compilation/decorators.py", line 225, in __call__
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return self.forward(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/model_executor/models/qwen3_next_mtp.py", line 108, in forward
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert intermediate_tensors is not None
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AssertionError
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3270, in _dummy_run
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.drafter.dummy_run(num_tokens)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/spec_decode/eagle.py", line 986, in dummy_run
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model(
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/compilation/decorators.py", line 225, in __call__
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return self.forward(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/model_executor/models/qwen3_next_mtp.py", line 257, in forward
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     hidden_states = self.model(input_ids, positions, hidden_states,
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/compilation/decorators.py", line 225, in __call__
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return self.forward(*args, **kwargs)
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/model_executor/models/qwen3_next_mtp.py", line 108, in forward
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert intermediate_tensors is not None
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AssertionError
(Worker_PP4 pid=10608) ERROR 10-03 20:30:53 [multiproc_executor.py:671] 
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671] WorkerProc hit an exception.
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671] Traceback (most recent call last):
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 666, in worker_busy_loop
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     output = func(*args, **kwargs)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]              ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_worker.py", line 263, in determine_available_memory
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     self.model_runner.profile_run()
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3495, in profile_run
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     = self._dummy_run(self.max_num_tokens, is_profile=True)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/torch/utils/_contextlib.py", line 120, in decorate_context
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     return func(*args, **kwargs)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]            ^^^^^^^^^^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/worker/gpu_model_runner.py", line 3269, in _dummy_run
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]     assert isinstance(self.drafter, EagleProposer)
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671]                       ^^^^^^^^^^^^
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671] AttributeError: 'GPUModelRunner' object has no attribute 'drafter'
(Worker_PP0 pid=10604) ERROR 10-03 20:30:53 [multiproc_executor.py:671] 
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712] EngineCore failed to start.
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712] Traceback (most recent call last):
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 703, in run_engine_core
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     engine_core = EngineCoreProc(*args, **kwargs)
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 499, in __init__
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     super().__init__(vllm_config, executor_class, log_stats,
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 93, in __init__
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     self._initialize_kv_caches(vllm_config)
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 191, in _initialize_kv_caches
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     self.model_executor.determine_available_memory())
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/abstract.py", line 85, in determine_available_memory
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     return self.collective_rpc("determine_available_memory")
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 262, in collective_rpc
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     result = result.result()
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]              ^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/usr/lib/python3.12/concurrent/futures/_base.py", line 456, in result
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     return self.__get_result()
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]            ^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/usr/lib/python3.12/concurrent/futures/_base.py", line 401, in __get_result
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     raise self._exception
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/usr/lib/python3.12/concurrent/futures/thread.py", line 58, in run
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     result = self.fn(*self.args, **self.kwargs)
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 248, in get_response
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712]     raise RuntimeError(
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:53 [core.py:712] RuntimeError: Worker failed with error ''GPUModelRunner' object has no attribute 'drafter'', please check the stack trace above for the root cause
(EngineCore_DP0 pid=10474) ERROR 10-03 20:30:54 [multiproc_executor.py:154] Worker proc VllmWorker-2 died unexpectedly, shutting down executor.
(EngineCore_DP0 pid=10474) Process EngineCore_DP0:
(EngineCore_DP0 pid=10474) Traceback (most recent call last):
(EngineCore_DP0 pid=10474)   File "/usr/lib/python3.12/multiprocessing/process.py", line 314, in _bootstrap
(EngineCore_DP0 pid=10474)     self.run()
(EngineCore_DP0 pid=10474)   File "/usr/lib/python3.12/multiprocessing/process.py", line 108, in run
(EngineCore_DP0 pid=10474)     self._target(*self._args, **self._kwargs)
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 716, in run_engine_core
(EngineCore_DP0 pid=10474)     raise e
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 703, in run_engine_core
(EngineCore_DP0 pid=10474)     engine_core = EngineCoreProc(*args, **kwargs)
(EngineCore_DP0 pid=10474)                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 499, in __init__
(EngineCore_DP0 pid=10474)     super().__init__(vllm_config, executor_class, log_stats,
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 93, in __init__
(EngineCore_DP0 pid=10474)     self._initialize_kv_caches(vllm_config)
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core.py", line 191, in _initialize_kv_caches
(EngineCore_DP0 pid=10474)     self.model_executor.determine_available_memory())
(EngineCore_DP0 pid=10474)     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/abstract.py", line 85, in determine_available_memory
(EngineCore_DP0 pid=10474)     return self.collective_rpc("determine_available_memory")
(EngineCore_DP0 pid=10474)            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 262, in collective_rpc
(EngineCore_DP0 pid=10474)     result = result.result()
(EngineCore_DP0 pid=10474)              ^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474)   File "/usr/lib/python3.12/concurrent/futures/_base.py", line 456, in result
(EngineCore_DP0 pid=10474)     return self.__get_result()
(EngineCore_DP0 pid=10474)            ^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474)   File "/usr/lib/python3.12/concurrent/futures/_base.py", line 401, in __get_result
(EngineCore_DP0 pid=10474)     raise self._exception
(EngineCore_DP0 pid=10474)   File "/usr/lib/python3.12/concurrent/futures/thread.py", line 58, in run
(EngineCore_DP0 pid=10474)     result = self.fn(*self.args, **self.kwargs)
(EngineCore_DP0 pid=10474)              ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(EngineCore_DP0 pid=10474)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/executor/multiproc_executor.py", line 248, in get_response
(EngineCore_DP0 pid=10474)     raise RuntimeError(
(EngineCore_DP0 pid=10474) RuntimeError: Worker failed with error ''GPUModelRunner' object has no attribute 'drafter'', please check the stack trace above for the root cause
(APIServer pid=10323) Traceback (most recent call last):
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/bin/vllm", line 8, in <module>
(APIServer pid=10323)     sys.exit(main())
(APIServer pid=10323)              ^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/entrypoints/cli/main.py", line 54, in main
(APIServer pid=10323)     args.dispatch_function(args)
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/entrypoints/cli/serve.py", line 57, in cmd
(APIServer pid=10323)     uvloop.run(run_server(args))
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/uvloop/__init__.py", line 109, in run
(APIServer pid=10323)     return __asyncio.run(
(APIServer pid=10323)            ^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/usr/lib/python3.12/asyncio/runners.py", line 194, in run
(APIServer pid=10323)     return runner.run(main)
(APIServer pid=10323)            ^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/usr/lib/python3.12/asyncio/runners.py", line 118, in run
(APIServer pid=10323)     return self._loop.run_until_complete(task)
(APIServer pid=10323)            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "uvloop/loop.pyx", line 1518, in uvloop.loop.Loop.run_until_complete
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/uvloop/__init__.py", line 61, in wrapper
(APIServer pid=10323)     return await main
(APIServer pid=10323)            ^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 1884, in run_server
(APIServer pid=10323)     await run_server_worker(listen_address, sock, args, **uvicorn_kwargs)
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 1902, in run_server_worker
(APIServer pid=10323)     async with build_async_engine_client(
(APIServer pid=10323)   File "/usr/lib/python3.12/contextlib.py", line 210, in __aenter__
(APIServer pid=10323)     return await anext(self.gen)
(APIServer pid=10323)            ^^^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 180, in build_async_engine_client
(APIServer pid=10323)     async with build_async_engine_client_from_engine_args(
(APIServer pid=10323)   File "/usr/lib/python3.12/contextlib.py", line 210, in __aenter__
(APIServer pid=10323)     return await anext(self.gen)
(APIServer pid=10323)            ^^^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/entrypoints/openai/api_server.py", line 225, in build_async_engine_client_from_engine_args
(APIServer pid=10323)     async_llm = AsyncLLM.from_vllm_config(
(APIServer pid=10323)                 ^^^^^^^^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/utils/__init__.py", line 1572, in inner
(APIServer pid=10323)     return fn(*args, **kwargs)
(APIServer pid=10323)            ^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/async_llm.py", line 207, in from_vllm_config
(APIServer pid=10323)     return cls(
(APIServer pid=10323)            ^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/async_llm.py", line 134, in __init__
(APIServer pid=10323)     self.engine_core = EngineCoreClient.make_async_mp_client(
(APIServer pid=10323)                        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core_client.py", line 102, in make_async_mp_client
(APIServer pid=10323)     return AsyncMPClient(*client_args)
(APIServer pid=10323)            ^^^^^^^^^^^^^^^^^^^^^^^^^^^
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core_client.py", line 769, in __init__
(APIServer pid=10323)     super().__init__(
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/core_client.py", line 448, in __init__
(APIServer pid=10323)     with launch_core_engines(vllm_config, executor_class,
(APIServer pid=10323)   File "/usr/lib/python3.12/contextlib.py", line 144, in __exit__
(APIServer pid=10323)     next(self.gen)
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/utils.py", line 732, in launch_core_engines
(APIServer pid=10323)     wait_for_engine_startup(
(APIServer pid=10323)   File "/home/br00t/.virtualenvs/vllm/lib/python3.12/site-packages/vllm/v1/engine/utils.py", line 785, in wait_for_engine_startup
(APIServer pid=10323)     raise RuntimeError("Engine core initialization failed. "
(APIServer pid=10323) RuntimeError: Engine core initialization failed. See root cause above. Failed core proc(s): {}
```

### Before submitting a new issue...

- [x] Make sure you already searched for relevant issues, and asked the chatbot living at the bottom right corner of the [documentation page](https://docs.vllm.ai/en/latest/), which can answer lots of frequently asked questions.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

[Bug]: Qwen3-Next-80B-A3B-Thinking fails to load with CPU offload #26206

Your current environment

🐛 Describe the bug

Before submitting a new issue...

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

[Bug]: Qwen3-Next-80B-A3B-Thinking fails to load with CPU offload #26206

Description

Your current environment

🐛 Describe the bug

Before submitting a new issue...

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions