Adding ECI to SafetyEvaluation (Azure#39915)

slister1001 · web-flow · commit 582b6422ba95 · 2025-03-14T18:11:07.000Z
* Adding ECI to SafetyEvaluation

* fix typos
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_safety_evaluation/_safety_evaluation.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_safety_evaluation/_safety_evaluation.py
@@ -21,6 +21,7 @@
     _xpia,
     _coherence,
 )
+from azure.ai.evaluation._evaluators._eci._eci import ECIEvaluator
 from azure.ai.evaluation._evaluate import _evaluate
 from azure.ai.evaluation._exceptions import ErrorBlame, ErrorCategory, ErrorTarget, EvaluationException
 from azure.ai.evaluation._model_configurations import AzureAIProject, EvaluationResult
@@ -30,8 +31,9 @@
     AdversarialScenario,
     AdversarialScenarioJailbreak,
     IndirectAttackSimulator,
-    DirectAttackSimulator,
+    DirectAttackSimulator ,
 )
+from azure.ai.evaluation.simulator._adversarial_scenario import _UnstableAdversarialScenario
 from azure.ai.evaluation.simulator._utils import JsonLineList
 from azure.ai.evaluation._common.utils import validate_azure_ai_project
 from azure.ai.evaluation._model_configurations import AzureOpenAIModelConfiguration, OpenAIModelConfiguration
@@ -75,6 +77,7 @@ class _SafetyEvaluator(Enum):
     COHERENCE = "coherence"
     INDIRECT_ATTACK = "indirect_attack"
     DIRECT_ATTACK = "direct_attack"
+    ECI = "eci"
 
 
 @experimental
@@ -148,7 +151,7 @@ async def _simulate(
         max_simulation_results: int = 3,
         conversation_turns: List[List[Union[str, Dict[str, Any]]]] = [],
         tasks: List[str] = [],
-        adversarial_scenario: Optional[Union[AdversarialScenario, AdversarialScenarioJailbreak]] = None,
+        adversarial_scenario: Optional[Union[AdversarialScenario, AdversarialScenarioJailbreak, _UnstableAdversarialScenario]] = None,
         source_text: Optional[str] = None,
         direct_attack: bool = False,
     ) -> Dict[str, str]:
@@ -231,7 +234,7 @@ async def callback(
             )
 
         # if DirectAttack, run DirectAttackSimulator
-        elif direct_attack:
+        elif direct_attack and isinstance(adversarial_scenario, AdversarialScenario):
             self.logger.info(
                 f"Running DirectAttackSimulator with inputs: adversarial_scenario={adversarial_scenario}, max_conversation_turns={max_conversation_turns}, max_simulation_results={max_simulation_results}"
             )
@@ -267,7 +270,7 @@ async def callback(
             )
             simulator = AdversarialSimulator(azure_ai_project=self.azure_ai_project, credential=self.credential)
             simulator_outputs = await simulator(
-                scenario=adversarial_scenario,
+                scenario=adversarial_scenario, #type: ignore
                 max_conversation_turns=max_conversation_turns,
                 max_simulation_results=max_simulation_results,
                 conversation_turns=conversation_turns,
@@ -340,7 +343,7 @@ def _get_scenario(
         evaluators: List[_SafetyEvaluator],
         num_turns: int = 3,
         scenario: Optional[Union[AdversarialScenario, AdversarialScenarioJailbreak]] = None,
-    ) -> Optional[Union[AdversarialScenario, AdversarialScenarioJailbreak]]:
+    ) -> Optional[Union[AdversarialScenario, AdversarialScenarioJailbreak, _UnstableAdversarialScenario]]:
         """
         Returns the Simulation scenario based on the provided list of SafetyEvaluator.
 
@@ -362,6 +365,8 @@ def _get_scenario(
                     if num_turns > 1
                     else AdversarialScenario.ADVERSARIAL_QA
                 )
+            if evaluator == _SafetyEvaluator.ECI:
+                return _UnstableAdversarialScenario.ECI
             if evaluator in [
                 _SafetyEvaluator.GROUNDEDNESS,
                 _SafetyEvaluator.RELEVANCE,
@@ -439,6 +444,10 @@ def _get_evaluators(
                 evaluators_dict["content_safety"] = _content_safety.ContentSafetyEvaluator(
                     azure_ai_project=self.azure_ai_project, credential=self.credential
                 )
+            elif evaluator == _SafetyEvaluator.ECI:
+                evaluators_dict["eci"] = ECIEvaluator(
+                    azure_ai_project=self.azure_ai_project, credential=self.credential
+                )
             else:
                 msg = (
                     f"Invalid evaluator: {evaluator}. Supported evaluators are: {_SafetyEvaluator.__members__.values()}"
diff --git a/sdk/evaluation/azure-ai-evaluation/samples/evaluation_samples_safety_evaluation.py b/sdk/evaluation/azure-ai-evaluation/samples/evaluation_samples_safety_evaluation.py
@@ -115,7 +115,7 @@ def test_target(query: str) -> str:
         safety_evaluation_content_safety_scenario_results = asyncio.run(safety_evaluation_content_safety_scenario(
             evaluators=[_SafetyEvaluator.CONTENT_SAFETY],
             target=test_target,
-            scenario=AdversarialScenario.ADVERSARIAL_SUMMARIZATION,,
+            scenario=AdversarialScenario.ADVERSARIAL_SUMMARIZATION,
             num_rows=3,
             output_path="evaluation_outputs_safety_scenario.jsonl",
         ))
@@ -242,6 +242,28 @@ def test_target(query: str) -> str:
         ))
         # [END upia_safety_evaluation]
 
+        # [START eci_safety_evaluation]
+        def test_target(query: str) -> str:
+            return "some response"
+        
+        azure_ai_project = {
+            "subscription_id": os.environ.get("AZURE_SUBSCRIPTION_ID"),
+            "resource_group_name": os.environ.get("AZURE_RESOURCE_GROUP_NAME"),
+            "project_name": os.environ.get("AZURE_PROJECT_NAME"),
+        }
+
+        credential = DefaultAzureCredential()
+
+        safety_evaluation_eci = _SafetyEvaluation(azure_ai_project=azure_ai_project, credential=credential)
+        safety_evaluation_eci_results = asyncio.run(safety_evaluation_eci(
+            evaluators=[_SafetyEvaluator.ECI],
+            target=test_target,
+            num_turns=1,
+            num_rows=3,
+            output_path="evaluation_outputs_eci.jsonl",
+        ))
+        # [END eci_safety_evaluation]
+
 if __name__ == "__main__":
     print("Loading samples in evaluation_samples_safety_evaluation.py")
     sample = EvaluationSafetyEvaluationSamples()