Arize-ai · mikeldking · Nov 14, 2023 · Nov 1, 2023 · Nov 2, 2023 · Nov 2, 2023
diff --git a/src/phoenix/experimental/evals/__init__.py b/src/phoenix/experimental/evals/__init__.py
@@ -2,15 +2,16 @@
 from .models import OpenAIModel, VertexAIModel
 from .retrievals import compute_precisions_at_k
 from .templates import (
-    CODE_READABILITY_PROMPT_RAILS_MAP,
-    CODE_READABILITY_PROMPT_TEMPLATE_STR,
-    HALLUCINATION_PROMPT_RAILS_MAP,
-    HALLUCINATION_PROMPT_TEMPLATE_STR,
+    CODE_READABILITY_PROMPT_RAILS,
+    CODE_READABILITY_PROMPT_TEMPLATE,
+    HALLUCINATION_PROMPT_RAILS,
+    HALLUCINATION_PROMPT_TEMPLATE,
     NOT_PARSABLE,
-    RAG_RELEVANCY_PROMPT_RAILS_MAP,
-    RAG_RELEVANCY_PROMPT_TEMPLATE_STR,
-    TOXICITY_PROMPT_RAILS_MAP,
-    TOXICITY_PROMPT_TEMPLATE_STR,
+    RAG_RELEVANCY_PROMPT_RAILS,
+    RAG_RELEVANCY_PROMPT_TEMPLATE,
+    TOXICITY_PROMPT_RAILS,
+    TOXICITY_PROMPT_TEMPLATE,
+    ClassificationTemplate,
     PromptTemplate,
 )
 from .utils.downloads import download_benchmark_dataset
@@ -24,14 +25,15 @@
     "OpenAIModel",
     "VertexAIModel",
     "PromptTemplate",
-    "CODE_READABILITY_PROMPT_RAILS_MAP",
-    "CODE_READABILITY_PROMPT_TEMPLATE_STR",
-    "HALLUCINATION_PROMPT_RAILS_MAP",
-    "HALLUCINATION_PROMPT_TEMPLATE_STR",
-    "RAG_RELEVANCY_PROMPT_RAILS_MAP",
-    "RAG_RELEVANCY_PROMPT_TEMPLATE_STR",
-    "TOXICITY_PROMPT_TEMPLATE_STR",
-    "TOXICITY_PROMPT_RAILS_MAP",
+    "ClassificationTemplate",
+    "CODE_READABILITY_PROMPT_RAILS",
+    "CODE_READABILITY_PROMPT_TEMPLATE",
+    "HALLUCINATION_PROMPT_RAILS",
+    "HALLUCINATION_PROMPT_TEMPLATE",
+    "RAG_RELEVANCY_PROMPT_RAILS",
+    "RAG_RELEVANCY_PROMPT_TEMPLATE",
+    "TOXICITY_PROMPT_RAILS",
+    "TOXICITY_PROMPT_TEMPLATE",
     "NOT_PARSABLE",
     "run_relevance_eval",
 ]
diff --git a/src/phoenix/experimental/evals/functions/classify.py b/src/phoenix/experimental/evals/functions/classify.py
@@ -1,5 +1,6 @@
 import json
 import logging
+import re
 import warnings
 from typing import Any, Dict, Iterable, List, Optional, Union, cast
 
@@ -8,8 +9,8 @@
 from phoenix.experimental.evals.models import BaseEvalModel, OpenAIModel, set_verbosity
 from phoenix.experimental.evals.templates import (
     NOT_PARSABLE,
-    RAG_RELEVANCY_PROMPT_RAILS_MAP,
-    RAG_RELEVANCY_PROMPT_TEMPLATE_STR,
+    RAG_RELEVANCY_PROMPT_RAILS,
+    RAG_RELEVANCY_PROMPT_TEMPLATE,
     PromptTemplate,
     map_template,
     normalize_template,
@@ -85,20 +86,16 @@ def llm_classify(
         and model.supports_function_calling
     )
 
-    # TODO: support explanation without function calling
-    if provide_explanation and not use_openai_function_call:
-        raise ValueError(
-            "explanation is not currently available for models without OpenAI function calling"
-        )
-
     model_kwargs: Dict[str, Any] = {}
     if use_openai_function_call:
         openai_function = _default_openai_function(rails, provide_explanation)
         model_kwargs["functions"] = [openai_function]
         model_kwargs["function_call"] = {"name": openai_function["name"]}
 
     eval_template = normalize_template(template)
-    prompts = map_template(dataframe, eval_template)
+
+    prompts = map_template(dataframe, eval_template, provide_explanation=provide_explanation)
+
     with set_verbosity(model, verbose) as verbose_model:
         responses = verbose_model.generate(
             prompts.to_list(), instruction=system_instruction, **model_kwargs
@@ -112,8 +109,8 @@ def llm_classify(
         if not use_openai_function_call:
             raw_string = response
             if provide_explanation:
-                # TODO: support explanation without function calling
-                explanations.append(None)
+                raw_string, explanation = _search_for_label(raw_string), raw_string
+                explanations.append(explanation)
         else:
             try:
                 function_arguments = json.loads(response, strict=False)
@@ -193,8 +190,8 @@ def llm_eval_binary(
 def run_relevance_eval(
     dataframe: pd.DataFrame,
     model: BaseEvalModel,
-    template: Union[PromptTemplate, str] = RAG_RELEVANCY_PROMPT_TEMPLATE_STR,
-    rails: List[str] = list(RAG_RELEVANCY_PROMPT_RAILS_MAP.values()),
+    template: Union[PromptTemplate, str] = RAG_RELEVANCY_PROMPT_TEMPLATE,
+    rails: List[str] = list(RAG_RELEVANCY_PROMPT_RAILS.values()),
     system_instruction: Optional[str] = None,
     query_column_name: str = "query",
     document_column_name: str = "reference",
@@ -343,6 +340,14 @@ def _snap_to_rail(raw_string: Optional[str], rails: List[str], verbose: bool = F
     return rail
 
 
+def _search_for_label(raw_string: str) -> str:
+    label_delimiter = r"\W*label\W*"
+    parts = re.split(label_delimiter, raw_string, maxsplit=1, flags=re.IGNORECASE)
+    if len(parts) == 2:
+        return parts[1]
+    return ""
+
+
 def _default_openai_function(
     rails: List[str],
     with_explanation: bool = False,

diff --git a/src/phoenix/experimental/evals/templates/__init__.py b/src/phoenix/experimental/evals/templates/__init__.py
@@ -1,26 +1,33 @@
 from .default_templates import (
-    CODE_READABILITY_PROMPT_RAILS_MAP,
-    CODE_READABILITY_PROMPT_TEMPLATE_STR,
-    HALLUCINATION_PROMPT_RAILS_MAP,
-    HALLUCINATION_PROMPT_TEMPLATE_STR,
-    RAG_RELEVANCY_PROMPT_RAILS_MAP,
-    RAG_RELEVANCY_PROMPT_TEMPLATE_STR,
-    TOXICITY_PROMPT_RAILS_MAP,
-    TOXICITY_PROMPT_TEMPLATE_STR,
+    CODE_READABILITY_PROMPT_RAILS,
+    CODE_READABILITY_PROMPT_TEMPLATE,
+    HALLUCINATION_PROMPT_RAILS,
+    HALLUCINATION_PROMPT_TEMPLATE,
+    RAG_RELEVANCY_PROMPT_RAILS,
+    RAG_RELEVANCY_PROMPT_TEMPLATE,
+    TOXICITY_PROMPT_RAILS,
+    TOXICITY_PROMPT_TEMPLATE,
+)
+from .template import (
+    NOT_PARSABLE,
+    ClassificationTemplate,
+    PromptTemplate,
+    map_template,
+    normalize_template,
 )
-from .template import NOT_PARSABLE, PromptTemplate, map_template, normalize_template
 
 __all__ = [
     "PromptTemplate",
+    "ClassificationTemplate",
     "normalize_template",
     "map_template",
     "NOT_PARSABLE",
-    "RAG_RELEVANCY_PROMPT_RAILS_MAP",
-    "RAG_RELEVANCY_PROMPT_TEMPLATE_STR",
-    "HALLUCINATION_PROMPT_RAILS_MAP",
-    "HALLUCINATION_PROMPT_TEMPLATE_STR",
-    "CODE_READABILITY_PROMPT_RAILS_MAP",
-    "CODE_READABILITY_PROMPT_TEMPLATE_STR",
-    "TOXICITY_PROMPT_RAILS_MAP",
-    "TOXICITY_PROMPT_TEMPLATE_STR",
+    "CODE_READABILITY_PROMPT_RAILS",
+    "CODE_READABILITY_PROMPT_TEMPLATE",
+    "HALLUCINATION_PROMPT_RAILS",
+    "HALLUCINATION_PROMPT_TEMPLATE",
+    "RAG_RELEVANCY_PROMPT_RAILS",
+    "RAG_RELEVANCY_PROMPT_TEMPLATE",
+    "TOXICITY_PROMPT_RAILS",
+    "TOXICITY_PROMPT_TEMPLATE",
 ]