Extract IO indices during compilation.

intelgaoxiong · intelgaoxiong · commit 89689449bc4e · 2025-11-28T17:13:24.000-08:00
Signed-off-by: intelgaoxiong &lt;xiong.gao@intel.com&gt;
diff --git a/src/plugins/intel_npu/src/plugin/npuw/host_flash_attention.cpp b/src/plugins/intel_npu/src/plugin/npuw/host_flash_attention.cpp
@@ -806,19 +806,57 @@ HostFlashAttention::HostFlashAttention(const function::HostFlashAttention& func_
     // Copy SDPA input index mapping from function HFA (already built in from() method)
     _sdpa_attention_info._sdpa_param_index_map = func_hfa._sdpa_param_index_map;
 
-    // Copy HFA Tile Model input index mapping from function HFA
-    _sdpa_attention_info._tile_param_index_map = func_hfa._tile_param_index_map;
-
-    // Copy HFA Tile Model output index mapping from function HFA
-    _sdpa_attention_info._tile_output_index_map = func_hfa._tile_output_index_map;
-
     // Copy query size directly from function HFA (no need to extract from model)
     _sdpa_attention_info._query_size = func_hfa._query_size;
 
     // Copy K/V sequence dimensions from function HFA
     _sdpa_attention_info._k_seq_dim = func_hfa._k_seq_dim;
     _sdpa_attention_info._v_seq_dim = func_hfa._v_seq_dim;
 
+    // Pre-cache tile indices from function HFA maps
+    LOG_INFO("Pre-caching tile indices...");
+
+    auto get_tile_input_idx = [&](HFATileInputId input_id) -> std::size_t {
+        auto it = func_hfa._tile_param_index_map.find(input_id);
+        if (it == func_hfa._tile_param_index_map.end()) {
+            OPENVINO_THROW("HFA: Tile input mapping not found for input ID: ", static_cast<uint8_t>(input_id));
+        }
+        return it->second;
+    };
+
+    auto get_tile_output_idx = [&](HFATileOutputId output_id) -> std::size_t {
+        auto it = func_hfa._tile_output_index_map.find(output_id);
+        if (it == func_hfa._tile_output_index_map.end()) {
+            OPENVINO_THROW("HFA: Tile output mapping not found for output ID: ", static_cast<uint8_t>(output_id));
+        }
+        return it->second;
+    };
+
+    // Cache all tile input indices
+    _sdpa_attention_info._tile_input_indices.q = get_tile_input_idx(HFATileInputId::Q);
+    _sdpa_attention_info._tile_input_indices.k = get_tile_input_idx(HFATileInputId::K_TILE);
+    _sdpa_attention_info._tile_input_indices.v = get_tile_input_idx(HFATileInputId::V_TILE);
+    _sdpa_attention_info._tile_input_indices.mask = get_tile_input_idx(HFATileInputId::MASK_TILE);
+    _sdpa_attention_info._tile_input_indices.acc = get_tile_input_idx(HFATileInputId::PAST_ACC);
+    _sdpa_attention_info._tile_input_indices.max = get_tile_input_idx(HFATileInputId::PAST_MAX);
+    _sdpa_attention_info._tile_input_indices.d = get_tile_input_idx(HFATileInputId::PAST_D);
+
+    // Cache all tile output indices
+    _sdpa_attention_info._tile_output_indices.acc = get_tile_output_idx(HFATileOutputId::ACC);
+    _sdpa_attention_info._tile_output_indices.max = get_tile_output_idx(HFATileOutputId::MAXX);
+    _sdpa_attention_info._tile_output_indices.d = get_tile_output_idx(HFATileOutputId::D);
+
+    LOG_INFO("Pre-cached indices: inputs[q=" << _sdpa_attention_info._tile_input_indices.q
+                                             << ", k=" << _sdpa_attention_info._tile_input_indices.k
+                                             << ", v=" << _sdpa_attention_info._tile_input_indices.v
+                                             << ", mask=" << _sdpa_attention_info._tile_input_indices.mask
+                                             << ", acc=" << _sdpa_attention_info._tile_input_indices.acc
+                                             << ", max=" << _sdpa_attention_info._tile_input_indices.max
+                                             << ", d=" << _sdpa_attention_info._tile_input_indices.d
+                                             << "], outputs[acc=" << _sdpa_attention_info._tile_output_indices.acc
+                                             << ", max=" << _sdpa_attention_info._tile_output_indices.max
+                                             << ", d=" << _sdpa_attention_info._tile_output_indices.d << "]");
+
     // Note: _compiled_tile_model and _compiled_final_tile_model will be set later by
     // compile_host_flash_attention_model()
 }
diff --git a/src/plugins/intel_npu/src/plugin/npuw/host_flash_attention.hpp b/src/plugins/intel_npu/src/plugin/npuw/host_flash_attention.hpp
@@ -184,15 +184,26 @@ struct HostFlashAttentionInfo {
     // Populated from function::HostFlashAttention::_sdpa_param_index_map
     std::map<SDPAInputId, std::size_t> _sdpa_param_index_map;
 
-    // Mapping from HFA Tile parameter identifier to actual parameter index in tile model
-    // This allows accessing tile model parameters by semantic name
-    // Populated from function::HostFlashAttention::_tile_param_index_map
-    std::map<HFATileInputId, std::size_t> _tile_param_index_map;
-
-    // Mapping from HFA Tile output identifier to actual output index in tile model
-    // This allows accessing tile model outputs by semantic name rather than hardcoded indices
-    // Populated from function::HostFlashAttention::_tile_output_index_map
-    std::map<HFATileOutputId, std::size_t> _tile_output_index_map;
+    // NOTE: Tile input/output maps are not stored to save memory.
+    // Indices are pre-cached below during compilation.
+
+    // Pre-cached tile input indices
+    struct {
+        std::size_t q = 0u;
+        std::size_t k = 0u;
+        std::size_t v = 0u;
+        std::size_t mask = 0u;
+        std::size_t acc = 0u;
+        std::size_t max = 0u;
+        std::size_t d = 0u;
+    } _tile_input_indices;
+
+    // Pre-cached tile output indices
+    struct {
+        std::size_t acc = 0u;
+        std::size_t max = 0u;
+        std::size_t d = 0u;
+    } _tile_output_indices;
 };
 
 // Compile-time host flash attention information
diff --git a/src/plugins/intel_npu/src/plugin/npuw/just_sync_infer_request.cpp b/src/plugins/intel_npu/src/plugin/npuw/just_sync_infer_request.cpp
@@ -1335,45 +1335,17 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
     auto attention_output_tensor = hfa_outputs.at(0);
 
     // ================================================================================================
-    // SECTION 4: Index Pre-caching and State Initialization
+    // SECTION 4: State Initialization
     // ================================================================================================
 
-    const auto& tile_input_map = hfa_desc._sdpa_attention_info._tile_param_index_map;
-    auto get_tile_param_idx = [&](ov::npuw::HFATileInputId input_id) -> std::size_t {
-        auto it = tile_input_map.find(input_id);
-        if (it == tile_input_map.end()) {
-            OPENVINO_THROW("HFA: Tile input mapping not found for input ID: ", static_cast<uint8_t>(input_id));
-        }
-        return it->second;
-    };
-
-    // Pre-cache tile input indices
-    const std::size_t tile_idx_q = get_tile_param_idx(ov::npuw::HFATileInputId::Q);
-    const std::size_t tile_idx_k = get_tile_param_idx(ov::npuw::HFATileInputId::K_TILE);
-    const std::size_t tile_idx_v = get_tile_param_idx(ov::npuw::HFATileInputId::V_TILE);
-    const std::size_t tile_idx_mask = get_tile_param_idx(ov::npuw::HFATileInputId::MASK_TILE);
-    const std::size_t tile_idx_acc = get_tile_param_idx(ov::npuw::HFATileInputId::PAST_ACC);
-    const std::size_t tile_idx_max = get_tile_param_idx(ov::npuw::HFATileInputId::PAST_MAX);
-    const std::size_t tile_idx_d = get_tile_param_idx(ov::npuw::HFATileInputId::PAST_D);
-
-    // Pre-cache tile output indices
-    const auto& tile_output_map = hfa_desc._sdpa_attention_info._tile_output_index_map;
-    auto get_tile_output_idx = [&](ov::npuw::HFATileOutputId output_id) -> std::size_t {
-        auto it = tile_output_map.find(output_id);
-        if (it == tile_output_map.end()) {
-            OPENVINO_THROW("HFA: Tile output mapping not found for output ID: ", static_cast<uint8_t>(output_id));
-        }
-        return it->second;
-    };
-
-    const std::size_t regular_tile_output_acc = get_tile_output_idx(ov::npuw::HFATileOutputId::ACC);
-    const std::size_t regular_tile_output_max = get_tile_output_idx(ov::npuw::HFATileOutputId::MAXX);
-    const std::size_t regular_tile_output_d = get_tile_output_idx(ov::npuw::HFATileOutputId::D);
+    // Use pre-cached indices (populated during compilation)
+    const auto& tile_in = sdpa_info._tile_input_indices;
+    const auto& tile_out = sdpa_info._tile_output_indices;
 
-    // Initialize state tensors (acc, max, d) to zero/negative infinity
-    auto state_acc = regular_tile_request->get_tensor(hfa_desc._compiled_tile_model->inputs()[tile_idx_acc]);
-    auto state_max = regular_tile_request->get_tensor(hfa_desc._compiled_tile_model->inputs()[tile_idx_max]);
-    auto state_sum = regular_tile_request->get_tensor(hfa_desc._compiled_tile_model->inputs()[tile_idx_d]);
+    // Initialize state tensors to zero/negative infinity
+    auto state_acc = regular_tile_request->get_tensor(hfa_desc._compiled_tile_model->inputs()[tile_in.acc]);
+    auto state_max = regular_tile_request->get_tensor(hfa_desc._compiled_tile_model->inputs()[tile_in.max]);
+    auto state_sum = regular_tile_request->get_tensor(hfa_desc._compiled_tile_model->inputs()[tile_in.d]);
 
     const auto acc_element_type = state_acc->get_element_type();
     if (acc_element_type == ov::element::f16) {
@@ -1399,8 +1371,8 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
     const size_t present_seq_length = present_key_tensor->get_shape()[K_SEQ_DIM];
 
     // Set query tensor once (constant across all tiles)
-    regular_tile_request->set_tensor(hfa_desc._compiled_tile_model->inputs()[tile_idx_q], query_tensor);
-    final_tile_request->set_tensor(hfa_desc._compiled_final_tile_model->inputs()[tile_idx_q], query_tensor);
+    regular_tile_request->set_tensor(hfa_desc._compiled_tile_model->inputs()[tile_in.q], query_tensor);
+    final_tile_request->set_tensor(hfa_desc._compiled_final_tile_model->inputs()[tile_in.q], query_tensor);
 
     // ================================================================================================
     // SECTION 6: Helper Functions
@@ -1505,17 +1477,17 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
         }
 
         // 7.3: Get tile input buffers
-        auto k_tile_buffer = current_request->get_tensor(current_model->inputs()[tile_idx_k]);
-        auto v_tile_buffer = current_request->get_tensor(current_model->inputs()[tile_idx_v]);
-        auto mask_tile_buffer = current_request->get_tensor(current_model->inputs()[tile_idx_mask]);
+        auto k_tile_buffer = current_request->get_tensor(current_model->inputs()[tile_in.k]);
+        auto v_tile_buffer = current_request->get_tensor(current_model->inputs()[tile_in.v]);
+        auto mask_tile_buffer = current_request->get_tensor(current_model->inputs()[tile_in.mask]);
 
         // 7.4: Extract K tile
         if (can_reuse_tensor_zero_copy(source_k_tensor,
                                        k_tile_buffer,
                                        K_SEQ_DIM,
                                        kv_tile_offset,
                                        current_tile_length)) {
-            current_request->set_tensor(current_model->inputs()[tile_idx_k], source_k_tensor);
+            current_request->set_tensor(current_model->inputs()[tile_in.k], source_k_tensor);
         } else {
             extract_and_copy_tile(source_k_tensor, k_tile_buffer, K_SEQ_DIM, kv_tile_offset, current_tile_length, "K");
         }
@@ -1526,7 +1498,7 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
                                        V_SEQ_DIM,
                                        kv_tile_offset,
                                        current_tile_length)) {
-            current_request->set_tensor(current_model->inputs()[tile_idx_v], source_v_tensor);
+            current_request->set_tensor(current_model->inputs()[tile_in.v], source_v_tensor);
         } else {
             extract_and_copy_tile(source_v_tensor, v_tile_buffer, V_SEQ_DIM, kv_tile_offset, current_tile_length, "V");
         }
@@ -1541,7 +1513,7 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
                                        MASK_KV_SEQ_DIM,
                                        mask_tile_offset,
                                        current_tile_length)) {
-            current_request->set_tensor(current_model->inputs()[tile_idx_mask], attention_mask_tensor);
+            current_request->set_tensor(current_model->inputs()[tile_in.mask], attention_mask_tensor);
         } else {
             extract_and_copy_tile(attention_mask_tensor,
                                   mask_tile_buffer,
@@ -1552,9 +1524,9 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
         }
 
         // 7.7: Set state tensors
-        current_request->set_tensor(current_model->inputs()[tile_idx_acc], state_acc);
-        current_request->set_tensor(current_model->inputs()[tile_idx_max], state_max);
-        current_request->set_tensor(current_model->inputs()[tile_idx_d], state_sum);
+        current_request->set_tensor(current_model->inputs()[tile_in.acc], state_acc);
+        current_request->set_tensor(current_model->inputs()[tile_in.max], state_max);
+        current_request->set_tensor(current_model->inputs()[tile_in.d], state_sum);
 
         // 7.8: Execute tile inference
         current_request->infer();
@@ -1564,9 +1536,9 @@ void ov::npuw::JustInferRequest::run_hfa_tiled_inference(std::size_t real_idx, s
             auto final_attention_output = current_request->get_tensor(current_model->outputs()[0]);
             final_attention_output->copy_to(attention_output_tensor._ptr);
         } else {
-            auto output_acc = current_request->get_tensor(current_model->outputs()[regular_tile_output_acc]);
-            auto output_max = current_request->get_tensor(current_model->outputs()[regular_tile_output_max]);
-            auto output_sum = current_request->get_tensor(current_model->outputs()[regular_tile_output_d]);
+            auto output_acc = current_request->get_tensor(current_model->outputs()[tile_out.acc]);
+            auto output_max = current_request->get_tensor(current_model->outputs()[tile_out.max]);
+            auto output_sum = current_request->get_tensor(current_model->outputs()[tile_out.d]);
 
             output_acc->copy_to(state_acc._ptr);
             output_max->copy_to(state_max._ptr);