microsoft
diff --git a/‎onnxruntime/core/providers/openvino/backend_manager.h‎
Lines changed: 1 addition & 2 deletions b/‎onnxruntime/core/providers/openvino/backend_manager.h‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎onnxruntime/core/providers/openvino/backend_utils.cc‎
Lines changed: 145 additions & 59 deletions b/‎onnxruntime/core/providers/openvino/backend_utils.cc‎
Lines changed: 145 additions & 59 deletions
diff --git a/‎onnxruntime/core/providers/openvino/backend_utils.h‎
Lines changed: 20 additions & 11 deletions b/‎onnxruntime/core/providers/openvino/backend_utils.h‎
Lines changed: 20 additions & 11 deletions
@@ -3,8 +3,7 @@
 
 #pragma once
 
-#include <inference_engine.hpp>
-
+#include "ov_interface.h"
 #include "contexts.h"
 #include "ibackend.h"
 
 
@@ -7,20 +7,11 @@
 #include <sstream>
 #include <fstream>
 
-#include <inference_engine.hpp>
-
-#if defined (OPENVINO_2021_4) || (OPENVINO_2022_1)
-using Exception = InferenceEngine::Exception;
-#else
-using Exception = InferenceEngine::details::InferenceEngineException;
-#endif
-
+#include "ov_interface.h"
 #include <ngraph/frontend/onnx_import/onnx.hpp>
 #include <ngraph/pass/convert_fp32_to_fp16.hpp>
 #include <ngraph/pass/constant_folding.hpp>
-
 #include "core/providers/shared_library/provider_api.h"
-
 #include "backend_utils.h"
 
 namespace onnxruntime {
@@ -107,59 +98,48 @@ struct static_cast_int64 {
 
 std::shared_ptr<InferenceEngine::CNNNetwork>
 CreateCNNNetwork(const ONNX_NAMESPACE::ModelProto& model_proto, const GlobalContext& global_context, const SubGraphContext& subgraph_context, std::map<std::string, std::shared_ptr<ngraph::Node>>& const_outputs_map) {
-  std::shared_ptr<ngraph::Function> ng_function;
-  // NGraph Function
+ 
   if(IsCILogEnabled()) {
     std::cout << "CreateNgraphFunc" << std::endl;
   }
 
-
 #ifndef NDEBUG
   if (IsDebugEnabled()) {
     DumpOnnxModelProto(model_proto, subgraph_context.subgraph_name + "_static.onnx");
   }
 #endif
 
-#if (defined OPENVINO_2021_2) || (defined OPENVINO_2021_3)
-  ORT_UNUSED_PARAMETER(const_outputs_map);
-  std::istringstream model_stream{model_proto.SerializeAsString()};
-  try {
+  std::shared_ptr<ngraph::Function> ng_function;
+  #if (defined OPENVINO_2021_2) || (defined OPENVINO_2021_3)
+    ORT_UNUSED_PARAMETER(const_outputs_map);
+    std::istringstream model_stream{model_proto.SerializeAsString()};
+    try {
     ng_function = ngraph::onnx_import::import_onnx_model(model_stream);
     LOGS_DEFAULT(INFO) << "ONNX Import Done";
-  } catch (const std::exception& exp) {
-    ORT_THROW(log_tag + "[OpenVINO-EP] Exception while importing model to nGraph Func: " + std::string(exp.what()));
-  } catch (...) {
-    ORT_THROW(log_tag + "[OpenVINO-EP] Unknown exception while importing model to nGraph Func");
-  }
-#else
-  //ReadNetwork() API flow will be used in OpenVINO-EP starting from OpenVINO 2021.4
-  InferenceEngine::CNNNetwork cnn_network;
-  const std::string model = model_proto.SerializeAsString();
-  InferenceEngine::Blob::Ptr blob = {nullptr};
-  try {
-    cnn_network = global_context.ie_core.ReadNetwork(model, blob);
-    LOGS_DEFAULT(INFO) << "Read network Done";
-  } catch (const Exception& e) {
-    ORT_THROW(log_tag + "[OpenVINO-EP] Exception while Reading network: " + std::string(e.what()));
-  } catch (...) {
-    ORT_THROW(log_tag + "[OpenVINO-EP] Unknown exception while Reading network");
-  }
-  ng_function = cnn_network.getFunction();
-#endif
+    } catch (const std::exception& exp) {
+      ORT_THROW(log_tag + "[OpenVINO-EP] Exception while importing model to nGraph Func: " + std::string(exp.what()));
+    } catch (...) {
+      ORT_THROW(log_tag + "[OpenVINO-EP] Unknown exception while importing model to nGraph Func");
+    }
+  #elif defined (OPENVINO_2021_4)
+    const std::string model = model_proto.SerializeAsString();
+    auto cnn_network = global_context.ie_core.ReadModel(model);
+    ng_function = cnn_network.getFunction();
+  #else
+     ORT_UNUSED_PARAMETER(model_proto);
+  #endif 
 
   if (global_context.device_type.find("GPU") != std::string::npos &&
       subgraph_context.precision == InferenceEngine::Precision::FP16) {
     //FP16 transformations
     ngraph::pass::ConvertFP32ToFP16().run_on_function(ng_function);
     ng_function->validate_nodes_and_infer_types();
   }
-
   if (!global_context.is_wholly_supported_graph) {
     std::map<std::string, std::string> result_to_output;
     for (auto& result : ng_function->get_results()) {
       result_to_output[result->get_friendly_name()] = result->input_value(0).get_node_shared_ptr()->get_friendly_name();
     }
-
     ngraph::pass::ConstantFolding().run_on_function(ng_function);
     auto& results = const_cast<::ngraph::ResultVector&>(ng_function->get_results());
     size_t index = results.size() - 1;
@@ -182,13 +162,47 @@ CreateCNNNetwork(const ONNX_NAMESPACE::ModelProto& model_proto, const GlobalCont
     #endif
   }
 
-  try {
-    return std::make_shared<InferenceEngine::CNNNetwork>(ng_function);
-  } catch (const Exception& e) {
-    ORT_THROW(log_tag + " Exception thrown while making IE::CNNNetwork: " + e.what());
-  } catch (...) {
-    ORT_THROW(log_tag + " Exception thrown while making IE::CNNNetwork");
+  return std::make_shared<InferenceEngine::CNNNetwork>(ng_function);
+};
+
+std::shared_ptr<ov::Model>
+CreateOVModel(const ONNX_NAMESPACE::ModelProto& model_proto, const GlobalContext& global_context, const SubGraphContext& subgraph_context, std::map<std::string, std::shared_ptr<ngraph::Node>>& const_outputs_map) {
+ 
+  if(IsCILogEnabled()) {
+    std::cout << "CreateNgraphFunc" << std::endl;
   }
+
+#ifndef NDEBUG
+  if (IsDebugEnabled()) {
+    DumpOnnxModelProto(model_proto, subgraph_context.subgraph_name + "_static.onnx");
+  }
+#endif
+
+  const std::string model = model_proto.SerializeAsString();
+  auto cnn_network = global_context.ie_core.ReadModel(model);
+  if (global_context.device_type.find("GPU") != std::string::npos &&
+      subgraph_context.precision == InferenceEngine::Precision::FP16) {
+    //FP16 transformations
+    ov::pass::ConvertFP32ToFP16 pass_obj;
+    pass_obj.run_on_model(cnn_network);
+    cnn_network.get()->validate_nodes_and_infer_types();
+  }
+  //Check for Constant Folding
+  if (!global_context.is_wholly_supported_graph) {
+    ov::pass::ConstantFolding pass_const_obj;
+    pass_const_obj.run_on_model(cnn_network);
+    auto& results = const_cast<ov::ResultVector&>(cnn_network.get()->get_results());
+    size_t index = results.size() - 1;
+ 
+    for (auto it = results.rbegin(); it != results.rend(); ++it) {
+      if (auto const_node = std::dynamic_pointer_cast<ngraph::op::Constant>((*it)->input_value(0).get_node_shared_ptr())) {
+        const_outputs_map[(*it)->get_friendly_name()] = const_node;
+        results.erase(results.begin() + index);
+      }
+      --index;
+    }
+  }
+  return cnn_network;
 }
 
 InferenceEngine::Precision ConvertPrecisionONNXToOpenVINO(const ONNX_NAMESPACE::TypeProto& onnx_type, std::string device) {
@@ -255,13 +269,18 @@ void SetIODefs(const ONNX_NAMESPACE::ModelProto& model_proto,
 
 OrtValue*
 GetOutputTensor(Ort::CustomOpApi& ort, OrtKernelContext* context, size_t batch_size,
-                InferenceEngine::InferRequest::Ptr infer_request,
+                OVInferRequestPtr infer_request,
                 std::string output_name,
                 std::unordered_map<std::string, int> output_names) {
   OrtValue* output_tensor;
+  auto graph_output_blob = infer_request->GetTensor(output_name);
+  
+  #if defined (OPENVINO_2022_1)
+  auto graph_output_dims = graph_output_blob->get_shape();
+  #else 
+  auto graph_output_dims = graph_output_blob->TensorDesc().getDims();
+  #endif
 
-  auto graph_output_blob = infer_request->GetBlob(output_name);
-  auto graph_output_dims = graph_output_blob->getTensorDesc().getDims();
   if (batch_size > 1) {
     // Add the batch size as dim 0.
     graph_output_dims.insert(graph_output_dims.begin(), batch_size);
@@ -276,9 +295,7 @@ GetOutputTensor(Ort::CustomOpApi& ort, OrtKernelContext* context, size_t batch_s
     ORT_THROW(log_tag + "Output names mismatch between OpenVINO and ONNX");
   }
   int index = it->second;
-
   output_tensor = ort.KernelContext_GetOutput(context, index, output_shape.get(), num_dims);
-
   return output_tensor;
 }
 
@@ -445,6 +462,75 @@ perfCountersSorted(std::map<std::string, InferenceEngine::InferenceEngineProfile
   return sorted;
 }
 
+void FillInputBlob(OVTensorPtr inputBlob, size_t batch_slice_idx,
+                   std::string input_name, Ort::CustomOpApi& ort, OrtKernelContext* context,
+                   const SubGraphContext& subgraph_context) {
+
+    size_t input_data_size = inputBlob->get_byte_size();    
+    auto input_data = inputBlob->data();
+    const OrtValue* tensor = ort.KernelContext_GetInput(context, subgraph_context.input_names.at(input_name));
+    auto mem_info = ort.GetTensorMemoryInfo(tensor);
+    if (strcmp(mem_info->name, OpenVINO_GPU) == 0) {
+      ORT_THROW(log_tag + "IO Buffering is not enabled, Please enable Input on CPU");
+    }
+    // Copy input data into OpenVINO's input buffer
+    const char* tensor_data = ort.GetTensorData<char>(tensor);
+    const char* batch_memory_offset = tensor_data + input_data_size * batch_slice_idx;
+    std::memcpy(input_data, batch_memory_offset, input_data_size);
+}
+
+void FillOutputBlob(OVTensorPtr outputBlob, OrtValue* output_tensor,
+                    Ort::CustomOpApi& ort, size_t batch_slice_idx) {
+  auto output_data = outputBlob->data();
+  size_t output_data_size = outputBlob->get_byte_size();
+  char* tensor_data = ort.GetTensorMutableData<char>(output_tensor);
+  char* batch_memory_offset = tensor_data + output_data_size * batch_slice_idx;
+  std::memcpy(batch_memory_offset, output_data, output_data_size);
+}
+
+
+void printPerformanceCounts(const std::vector<OVProfilingInfo>& performanceMap,
+                            std::ostream& stream, std::string deviceName) {
+  long long totalTime = 0;
+  // Print performance counts
+  stream << std::endl
+         << "performance counts:" << std::endl
+         << std::endl;
+
+  for (const auto& it : performanceMap) {
+    std::string toPrint(it.node_name);
+    const int maxLayerName = 30;
+
+    if (it.node_name.length() >= maxLayerName) {
+      toPrint = it.node_name.substr(0, maxLayerName - 4);
+      toPrint += "...";
+    }
+    stream << std::setw(maxLayerName) << std::left << toPrint;
+    switch (it.status) {
+      case OVProfilingInfo::Status::EXECUTED:
+        stream << std::setw(15) << std::left << "EXECUTED";
+        break;
+      case OVProfilingInfo::Status::NOT_RUN:
+        stream << std::setw(15) << std::left << "NOT_RUN";
+        break;
+      case OVProfilingInfo::Status::OPTIMIZED_OUT:
+        stream << std::setw(15) << std::left << "OPTIMIZED_OUT";
+        break;
+    }
+    stream << std::setw(30) << std::left << "layerType: " + std::string(it.node_type) + " ";
+    stream << std::setw(20) << std::left << "realTime: " + std::to_string(it.real_time.count());
+    stream << std::setw(20) << std::left << "cpu: " + std::to_string(it.cpu_time.count());
+    stream << " execType: " << it.exec_type << std::endl;
+    if (it.real_time.count() > 0) {
+      totalTime += it.real_time.count();
+    }
+  }
+  stream << std::setw(20) << std::left << "Total time: " + std::to_string(totalTime) << " microseconds" << std::endl;
+  std::cout << std::endl;
+  std::cout << "Full device name: " << deviceName << std::endl;
+  std::cout << std::endl;
+}
+
 void printPerformanceCounts(const std::map<std::string, InferenceEngine::InferenceEngineProfileInfo>& performanceMap,
                             std::ostream& stream, std::string deviceName) {
   long long totalTime = 0;
@@ -454,7 +540,7 @@ void printPerformanceCounts(const std::map<std::string, InferenceEngine::Inferen
          << std::endl;
 
   auto performanceMapSorted = perfCountersSorted(performanceMap);
-
+  
   for (const auto& it : performanceMapSorted) {
     std::string toPrint(it.first);
     const int maxLayerName = 30;
@@ -489,14 +575,14 @@ void printPerformanceCounts(const std::map<std::string, InferenceEngine::Inferen
   std::cout << std::endl;
 }
 
-void printPerformanceCounts(InferenceEngine::InferRequest::Ptr request, std::ostream& stream, std::string deviceName) {
-  auto performanceMap = request->GetPerformanceCounts();
-  printPerformanceCounts(performanceMap, stream, deviceName);
-}
-
-void printPerformanceCounts(InferenceEngine::InferRequest request, std::ostream& stream, std::string deviceName) {
-  auto performanceMap = request.GetPerformanceCounts();
-  printPerformanceCounts(performanceMap, stream, deviceName);
+void printPerformanceCounts(OVInferRequestPtr request, std::ostream& stream, std::string deviceName) {
+  #if defined (OPENVINO_2022_1)
+    auto performanceMap = request->GetNewObj().get_profiling_info();
+    printPerformanceCounts(performanceMap, stream, deviceName);
+  #else
+    auto performanceMap = request->GetObj().GetPerformanceCounts();
+    printPerformanceCounts(performanceMap, stream, deviceName);
+  #endif 
 }
 
 }  // namespace backend_utils
 
@@ -3,13 +3,11 @@
 
 #pragma once
 
-#include <inference_engine.hpp>
-
 #define ORT_API_MANUAL_INIT
 #include "core/session/onnxruntime_cxx_api.h"
 #include "contexts.h"
 #include <iomanip>
-
+#include "ov_interface.h"
 #ifdef _WIN32
 #include <direct.h>
 #define GetCurrentDir _getcwd
@@ -49,6 +47,9 @@ void SetIODefs(const ONNX_NAMESPACE::ModelProto& model_proto,
 std::shared_ptr<InferenceEngine::CNNNetwork>
 CreateCNNNetwork(const ONNX_NAMESPACE::ModelProto& model_proto, const GlobalContext& global_context, const SubGraphContext& subgraph_context, std::map<std::string, std::shared_ptr<ngraph::Node>>& const_outputs_map);
 
+std::shared_ptr<ov::Model>
+CreateOVModel(const ONNX_NAMESPACE::ModelProto& model_proto, const GlobalContext& global_context, const SubGraphContext& subgraph_context, std::map<std::string, std::shared_ptr<ngraph::Node>>& const_outputs_map);
+
 int GetFirstAvailableDevice(GlobalContext& global_context);
 
 void FillOutputsWithConstantData(Ort::CustomOpApi& ort, std::shared_ptr<ngraph::Node> node, OrtValue* out_tensor);
@@ -67,26 +68,34 @@ ConvertPrecisionONNXToOpenVINO(const ONNX_NAMESPACE::TypeProto& onnx_type, std::
 
 OrtValue*
 GetOutputTensor(Ort::CustomOpApi& ort, OrtKernelContext* context, size_t batch_size,
-                InferenceEngine::InferRequest::Ptr infer_request,
+                OVInferRequestPtr infer_request,
                 std::string output_name,
                 std::unordered_map<std::string, int> output_names);
 
+void FillInputBlob(OVTensorPtr inputBlob, size_t batch_slice_idx,
+                   std::string input_name, Ort::CustomOpApi& ort, OrtKernelContext* context,
+                   const SubGraphContext& subgraph_context);
+
+void FillOutputBlob(OVTensorPtr outputBlob, OrtValue* output_tensor,
+                    Ort::CustomOpApi& ort, size_t batch_slice_idx);
+
+void printPerformanceCounts(const std::map<std::string, InferenceEngine::InferenceEngineProfileInfo>& performanceMap,
+                            std::ostream& stream, std::string deviceName);
+
+std::vector<std::pair<std::string, InferenceEngine::InferenceEngineProfileInfo>>
+perfCountersSorted(std::map<std::string, InferenceEngine::InferenceEngineProfileInfo> perfMap);
+
 void FillInputBlob(InferenceEngine::Blob::Ptr& inputBlob, size_t batch_slice_idx,
                    std::string input_name, Ort::CustomOpApi& ort, OrtKernelContext* context,
                    InferenceEngine::Precision precision, const SubGraphContext& subgraph_context);
 
 void FillOutputBlob(InferenceEngine::Blob::Ptr& outputBlob, OrtValue* output_tensor,
                     Ort::CustomOpApi& ort, InferenceEngine::Precision precision, size_t batch_slice_idx);
 
-std::vector<std::pair<std::string, InferenceEngine::InferenceEngineProfileInfo>>
-perfCountersSorted(std::map<std::string, InferenceEngine::InferenceEngineProfileInfo> perfMap);
-
-void printPerformanceCounts(const std::map<std::string, InferenceEngine::InferenceEngineProfileInfo>& performanceMap,
+void printPerformanceCounts(const std::vector<OVProfilingInfo>& performanceMap,
                             std::ostream& stream, std::string deviceName);
 
-void printPerformanceCounts(InferenceEngine::InferRequest::Ptr request, std::ostream& stream, std::string deviceName);
-
-void printPerformanceCounts(InferenceEngine::InferRequest request, std::ostream& stream, std::string deviceName);
+void printPerformanceCounts(OVInferRequestPtr request, std::ostream& stream, std::string deviceName);
 
 }  // namespace backend_utils
 }  // namespace openvino_ep