llamastack
diff --git a/‎.stats.yml‎
Lines changed: 2 additions & 2 deletions b/‎.stats.yml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎api.md‎
Lines changed: 26 additions & 5 deletions b/‎api.md‎
Lines changed: 26 additions & 5 deletions
diff --git a/‎src/llama_stack_client/_client.py‎
Lines changed: 1 addition & 1 deletion b/‎src/llama_stack_client/_client.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/llama_stack_client/resources/inference.py‎
Lines changed: 132 additions & 1 deletion b/‎src/llama_stack_client/resources/inference.py‎
Lines changed: 132 additions & 1 deletion
diff --git a/‎src/llama_stack_client/resources/models/__init__.py‎
Lines changed: 33 additions & 0 deletions b/‎src/llama_stack_client/resources/models/__init__.py‎
Lines changed: 33 additions & 0 deletions
@@ -1,4 +1,4 @@
-configured_endpoints: 107
+configured_endpoints: 111
 openapi_spec_url: https://storage.googleapis.com/stainless-sdk-openapi-specs/llamastack%2Fllama-stack-client-f252873ea1e1f38fd207331ef2621c511154d5be3f4076e59cc15754fc58eee4.yml
 openapi_spec_hash: 10cbb4337a06a9fdd7d08612dd6044c3
-config_hash: 374d9711288576877a9fabb34e4da7b9
+config_hash: 0358112cc0f3d880b4d55debdbe1cfa3
@@ -81,14 +81,20 @@ Methods:
 Types:
 
 ```python
-from llama_stack_client.types import ResponseObject, ResponseObjectStream, ResponseListResponse
+from llama_stack_client.types import (
+    ResponseObject,
+    ResponseObjectStream,
+    ResponseListResponse,
+    ResponseDeleteResponse,
+)
 ```
 
 Methods:
 
 - <code title="post /v1/openai/v1/responses">client.responses.<a href="./src/llama_stack_client/resources/responses/responses.py">create</a>(\*\*<a href="src/llama_stack_client/types/response_create_params.py">params</a>) -> <a href="./src/llama_stack_client/types/response_object.py">ResponseObject</a></code>
 - <code title="get /v1/openai/v1/responses/{response_id}">client.responses.<a href="./src/llama_stack_client/resources/responses/responses.py">retrieve</a>(response_id) -> <a href="./src/llama_stack_client/types/response_object.py">ResponseObject</a></code>
 - <code title="get /v1/openai/v1/responses">client.responses.<a href="./src/llama_stack_client/resources/responses/responses.py">list</a>(\*\*<a href="src/llama_stack_client/types/response_list_params.py">params</a>) -> <a href="./src/llama_stack_client/types/response_list_response.py">SyncOpenAICursorPage[ResponseListResponse]</a></code>
+- <code title="delete /v1/openai/v1/responses/{response_id}">client.responses.<a href="./src/llama_stack_client/resources/responses/responses.py">delete</a>(response_id) -> <a href="./src/llama_stack_client/types/response_delete_response.py">ResponseDeleteResponse</a></code>
 
 ## InputItems
 
@@ -242,6 +248,7 @@ from llama_stack_client.types import (
     EmbeddingsResponse,
     TokenLogProbs,
     InferenceBatchChatCompletionResponse,
+    InferenceRerankResponse,
 )
 ```
 
@@ -252,6 +259,7 @@ Methods:
 - <code title="post /v1/inference/chat-completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">chat_completion</a>(\*\*<a href="src/llama_stack_client/types/inference_chat_completion_params.py">params</a>) -> <a href="./src/llama_stack_client/types/shared/chat_completion_response.py">ChatCompletionResponse</a></code>
 - <code title="post /v1/inference/completion">client.inference.<a href="./src/llama_stack_client/resources/inference.py">completion</a>(\*\*<a href="src/llama_stack_client/types/inference_completion_params.py">params</a>) -> <a href="./src/llama_stack_client/types/completion_response.py">CompletionResponse</a></code>
 - <code title="post /v1/inference/embeddings">client.inference.<a href="./src/llama_stack_client/resources/inference.py">embeddings</a>(\*\*<a href="src/llama_stack_client/types/inference_embeddings_params.py">params</a>) -> <a href="./src/llama_stack_client/types/embeddings_response.py">EmbeddingsResponse</a></code>
+- <code title="post /v1/inference/rerank">client.inference.<a href="./src/llama_stack_client/resources/inference.py">rerank</a>(\*\*<a href="src/llama_stack_client/types/inference_rerank_params.py">params</a>) -> <a href="./src/llama_stack_client/types/inference_rerank_response.py">InferenceRerankResponse</a></code>
 
 # Embeddings
 
@@ -389,10 +397,22 @@ from llama_stack_client.types import ListModelsResponse, Model, ModelListRespons
 
 Methods:
 
-- <code title="get /v1/models/{model_id}">client.models.<a href="./src/llama_stack_client/resources/models.py">retrieve</a>(model_id) -> <a href="./src/llama_stack_client/types/model.py">Model</a></code>
-- <code title="get /v1/models">client.models.<a href="./src/llama_stack_client/resources/models.py">list</a>() -> <a href="./src/llama_stack_client/types/model_list_response.py">ModelListResponse</a></code>
-- <code title="post /v1/models">client.models.<a href="./src/llama_stack_client/resources/models.py">register</a>(\*\*<a href="src/llama_stack_client/types/model_register_params.py">params</a>) -> <a href="./src/llama_stack_client/types/model.py">Model</a></code>
-- <code title="delete /v1/models/{model_id}">client.models.<a href="./src/llama_stack_client/resources/models.py">unregister</a>(model_id) -> None</code>
+- <code title="get /v1/models/{model_id}">client.models.<a href="./src/llama_stack_client/resources/models/models.py">retrieve</a>(model_id) -> <a href="./src/llama_stack_client/types/model.py">Model</a></code>
+- <code title="get /v1/models">client.models.<a href="./src/llama_stack_client/resources/models/models.py">list</a>() -> <a href="./src/llama_stack_client/types/model_list_response.py">ModelListResponse</a></code>
+- <code title="post /v1/models">client.models.<a href="./src/llama_stack_client/resources/models/models.py">register</a>(\*\*<a href="src/llama_stack_client/types/model_register_params.py">params</a>) -> <a href="./src/llama_stack_client/types/model.py">Model</a></code>
+- <code title="delete /v1/models/{model_id}">client.models.<a href="./src/llama_stack_client/resources/models/models.py">unregister</a>(model_id) -> None</code>
+
+## OpenAI
+
+Types:
+
+```python
+from llama_stack_client.types.models import OpenAIListResponse
+```
+
+Methods:
+
+- <code title="get /v1/openai/v1/models">client.models.openai.<a href="./src/llama_stack_client/resources/models/openai.py">list</a>() -> <a href="./src/llama_stack_client/types/models/openai_list_response.py">OpenAIListResponse</a></code>
 
 # PostTraining
 
@@ -487,6 +507,7 @@ Methods:
 
 - <code title="get /v1/shields/{identifier}">client.shields.<a href="./src/llama_stack_client/resources/shields.py">retrieve</a>(identifier) -> <a href="./src/llama_stack_client/types/shield.py">Shield</a></code>
 - <code title="get /v1/shields">client.shields.<a href="./src/llama_stack_client/resources/shields.py">list</a>() -> <a href="./src/llama_stack_client/types/shield_list_response.py">ShieldListResponse</a></code>
+- <code title="delete /v1/shields/{identifier}">client.shields.<a href="./src/llama_stack_client/resources/shields.py">delete</a>(identifier) -> None</code>
 - <code title="post /v1/shields">client.shields.<a href="./src/llama_stack_client/resources/shields.py">register</a>(\*\*<a href="src/llama_stack_client/types/shield_register_params.py">params</a>) -> <a href="./src/llama_stack_client/types/shield.py">Shield</a></code>
 
 # SyntheticDataGeneration
 
@@ -64,7 +64,6 @@
     )
     from .resources.files import FilesResource, AsyncFilesResource
     from .resources.tools import ToolsResource, AsyncToolsResource
-    from .resources.models import ModelsResource, AsyncModelsResource
     from .resources.routes import RoutesResource, AsyncRoutesResource
     from .resources.safety import SafetyResource, AsyncSafetyResource
     from .resources.inspect import InspectResource, AsyncInspectResource
@@ -84,6 +83,7 @@
     from .resources.completions import CompletionsResource, AsyncCompletionsResource
     from .resources.moderations import ModerationsResource, AsyncModerationsResource
     from .resources.agents.agents import AgentsResource, AsyncAgentsResource
+    from .resources.models.models import ModelsResource, AsyncModelsResource
     from .resources.scoring_functions import ScoringFunctionsResource, AsyncScoringFunctionsResource
     from .resources.responses.responses import ResponsesResource, AsyncResponsesResource
     from .resources.synthetic_data_generation import (
 
@@ -3,12 +3,13 @@
 from __future__ import annotations
 
 import typing_extensions
-from typing import Union, Iterable
+from typing import Type, Union, Iterable, cast
 from typing_extensions import Literal, overload
 
 import httpx
 
 from ..types import (
+    inference_rerank_params,
     inference_completion_params,
     inference_embeddings_params,
     inference_chat_completion_params,
@@ -25,12 +26,14 @@
     async_to_raw_response_wrapper,
     async_to_streamed_response_wrapper,
 )
+from .._wrappers import DataWrapper
 from .._streaming import Stream, AsyncStream
 from .._base_client import make_request_options
 from ..types.completion_response import CompletionResponse
 from ..types.embeddings_response import EmbeddingsResponse
 from ..types.shared_params.message import Message
 from ..types.shared.batch_completion import BatchCompletion
+from ..types.inference_rerank_response import InferenceRerankResponse
 from ..types.shared_params.response_format import ResponseFormat
 from ..types.shared_params.sampling_params import SamplingParams
 from ..types.shared.chat_completion_response import ChatCompletionResponse
@@ -696,6 +699,64 @@ def embeddings(
             cast_to=EmbeddingsResponse,
         )
 
+    def rerank(
+        self,
+        *,
+        items: SequenceNotStr[inference_rerank_params.Item],
+        model: str,
+        query: inference_rerank_params.Query,
+        max_num_results: int | Omit = omit,
+        # Use the following arguments if you need to pass additional parameters to the API that aren't available via kwargs.
+        # The extra values given here take precedence over values defined on the client or passed to this method.
+        extra_headers: Headers | None = None,
+        extra_query: Query | None = None,
+        extra_body: Body | None = None,
+        timeout: float | httpx.Timeout | None | NotGiven = not_given,
+    ) -> InferenceRerankResponse:
+        """
+        Rerank a list of documents based on their relevance to a query.
+
+        Args:
+          items: List of items to rerank. Each item can be a string, text content part, or image
+              content part. Each input must not exceed the model's max input token length.
+
+          model: The identifier of the reranking model to use.
+
+          query: The search query to rank items against. Can be a string, text content part, or
+              image content part. The input must not exceed the model's max input token
+              length.
+
+          max_num_results: (Optional) Maximum number of results to return. Default: returns all.
+
+          extra_headers: Send extra headers
+
+          extra_query: Add additional query parameters to the request
+
+          extra_body: Add additional JSON properties to the request
+
+          timeout: Override the client-level default timeout for this request, in seconds
+        """
+        return self._post(
+            "/v1/inference/rerank",
+            body=maybe_transform(
+                {
+                    "items": items,
+                    "model": model,
+                    "query": query,
+                    "max_num_results": max_num_results,
+                },
+                inference_rerank_params.InferenceRerankParams,
+            ),
+            options=make_request_options(
+                extra_headers=extra_headers,
+                extra_query=extra_query,
+                extra_body=extra_body,
+                timeout=timeout,
+                post_parser=DataWrapper[InferenceRerankResponse]._unwrapper,
+            ),
+            cast_to=cast(Type[InferenceRerankResponse], DataWrapper[InferenceRerankResponse]),
+        )
+
 
 class AsyncInferenceResource(AsyncAPIResource):
     @cached_property
@@ -1351,6 +1412,64 @@ async def embeddings(
             cast_to=EmbeddingsResponse,
         )
 
+    async def rerank(
+        self,
+        *,
+        items: SequenceNotStr[inference_rerank_params.Item],
+        model: str,
+        query: inference_rerank_params.Query,
+        max_num_results: int | Omit = omit,
+        # Use the following arguments if you need to pass additional parameters to the API that aren't available via kwargs.
+        # The extra values given here take precedence over values defined on the client or passed to this method.
+        extra_headers: Headers | None = None,
+        extra_query: Query | None = None,
+        extra_body: Body | None = None,
+        timeout: float | httpx.Timeout | None | NotGiven = not_given,
+    ) -> InferenceRerankResponse:
+        """
+        Rerank a list of documents based on their relevance to a query.
+
+        Args:
+          items: List of items to rerank. Each item can be a string, text content part, or image
+              content part. Each input must not exceed the model's max input token length.
+
+          model: The identifier of the reranking model to use.
+
+          query: The search query to rank items against. Can be a string, text content part, or
+              image content part. The input must not exceed the model's max input token
+              length.
+
+          max_num_results: (Optional) Maximum number of results to return. Default: returns all.
+
+          extra_headers: Send extra headers
+
+          extra_query: Add additional query parameters to the request
+
+          extra_body: Add additional JSON properties to the request
+
+          timeout: Override the client-level default timeout for this request, in seconds
+        """
+        return await self._post(
+            "/v1/inference/rerank",
+            body=await async_maybe_transform(
+                {
+                    "items": items,
+                    "model": model,
+                    "query": query,
+                    "max_num_results": max_num_results,
+                },
+                inference_rerank_params.InferenceRerankParams,
+            ),
+            options=make_request_options(
+                extra_headers=extra_headers,
+                extra_query=extra_query,
+                extra_body=extra_body,
+                timeout=timeout,
+                post_parser=DataWrapper[InferenceRerankResponse]._unwrapper,
+            ),
+            cast_to=cast(Type[InferenceRerankResponse], DataWrapper[InferenceRerankResponse]),
+        )
+
 
 class InferenceResourceWithRawResponse:
     def __init__(self, inference: InferenceResource) -> None:
@@ -1377,6 +1496,9 @@ def __init__(self, inference: InferenceResource) -> None:
                 inference.embeddings,  # pyright: ignore[reportDeprecated],
             )
         )
+        self.rerank = to_raw_response_wrapper(
+            inference.rerank,
+        )
 
 
 class AsyncInferenceResourceWithRawResponse:
@@ -1404,6 +1526,9 @@ def __init__(self, inference: AsyncInferenceResource) -> None:
                 inference.embeddings,  # pyright: ignore[reportDeprecated],
             )
         )
+        self.rerank = async_to_raw_response_wrapper(
+            inference.rerank,
+        )
 
 
 class InferenceResourceWithStreamingResponse:
@@ -1431,6 +1556,9 @@ def __init__(self, inference: InferenceResource) -> None:
                 inference.embeddings,  # pyright: ignore[reportDeprecated],
             )
         )
+        self.rerank = to_streamed_response_wrapper(
+            inference.rerank,
+        )
 
 
 class AsyncInferenceResourceWithStreamingResponse:
@@ -1458,3 +1586,6 @@ def __init__(self, inference: AsyncInferenceResource) -> None:
                 inference.embeddings,  # pyright: ignore[reportDeprecated],
             )
         )
+        self.rerank = async_to_streamed_response_wrapper(
+            inference.rerank,
+        )
@@ -0,0 +1,33 @@
+# File generated from our OpenAPI spec by Stainless. See CONTRIBUTING.md for details.
+
+from .models import (
+    ModelsResource,
+    AsyncModelsResource,
+    ModelsResourceWithRawResponse,
+    AsyncModelsResourceWithRawResponse,
+    ModelsResourceWithStreamingResponse,
+    AsyncModelsResourceWithStreamingResponse,
+)
+from .openai import (
+    OpenAIResource,
+    AsyncOpenAIResource,
+    OpenAIResourceWithRawResponse,
+    AsyncOpenAIResourceWithRawResponse,
+    OpenAIResourceWithStreamingResponse,
+    AsyncOpenAIResourceWithStreamingResponse,
+)
+
+__all__ = [
+    "OpenAIResource",
+    "AsyncOpenAIResource",
+    "OpenAIResourceWithRawResponse",
+    "AsyncOpenAIResourceWithRawResponse",
+    "OpenAIResourceWithStreamingResponse",
+    "AsyncOpenAIResourceWithStreamingResponse",
+    "ModelsResource",
+    "AsyncModelsResource",
+    "ModelsResourceWithRawResponse",
+    "AsyncModelsResourceWithRawResponse",
+    "ModelsResourceWithStreamingResponse",
+    "AsyncModelsResourceWithStreamingResponse",
+]