llamastack · stainless-app · Nov 4, 2025 · Oct 31, 2025 · Nov 3, 2025 · Nov 3, 2025
diff --git a/.release-please-manifest.json b/.release-please-manifest.json
@@ -1,3 +1,3 @@
 {
-  ".": "0.4.0-alpha.1"
+  ".": "0.4.0-alpha.2"
 }
diff --git a/.stats.yml b/.stats.yml
@@ -1,4 +1,4 @@
-configured_endpoints: 111
-openapi_spec_url: https://storage.googleapis.com/stainless-sdk-openapi-specs/llamastack%2Fllama-stack-client-35c6569e5e9fcc85084c9728eb7fc7c5908297fcc77043d621d25de3c850a990.yml
-openapi_spec_hash: 0f95bbeee16f3205d36ec34cfa62c711
-config_hash: ef275cc002a89629459fd73d0cf9cba9
+configured_endpoints: 112
+openapi_spec_url: https://storage.googleapis.com/stainless-sdk-openapi-specs/llamastack%2Fllama-stack-client-a9f69d4a5f5d9bf957497cac83fdad1f72c8a44614098447762c53883e8bd987.yml
+openapi_spec_hash: 75de5bdff8e70591d6033b609fc24e5d
+config_hash: 34558d5f6e265184d712d43e231eb693
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,5 +1,19 @@
 # Changelog
 
+## 0.4.0-alpha.2 (2025-11-03)
+
+Full Changelog: [v0.4.0-alpha.1...v0.4.0-alpha.2](https://github.com/llamastack/llama-stack-client-python/compare/v0.4.0-alpha.1...v0.4.0-alpha.2)
+
+### Features
+
+* **api:** point models.list() to /v1/openai/v1/models ([efdf1be](https://github.com/llamastack/llama-stack-client-python/commit/efdf1be41243be5107f4863de99c5dce8504bba9))
+
+
+### Chores
+
+* bump version to 0.3.2.dev0 ([#292](https://github.com/llamastack/llama-stack-client-python/issues/292)) ([fb91556](https://github.com/llamastack/llama-stack-client-python/commit/fb915569d1b07bbbc1202e3142447807f6d42436))
+* **internal/tests:** avoid race condition with implicit client cleanup ([4af8f35](https://github.com/llamastack/llama-stack-client-python/commit/4af8f35cffaf2b3d00a38a8fc5f8ca5a0b266786))
+
 ## 0.4.0-alpha.1 (2025-10-30)
 
 Full Changelog: [v0.3.1-alpha.2...v0.4.0-alpha.1](https://github.com/llamastack/llama-stack-client-python/compare/v0.3.1-alpha.2...v0.4.0-alpha.1)

diff --git a/api.md b/api.md
@@ -306,15 +306,21 @@ from llama_stack_client.types import ListModelsResponse, Model, ModelListRespons
 Methods:
 
 - <code title="get /v1/models/{model_id}">client.models.<a href="./src/llama_stack_client/resources/models/models.py">retrieve</a>(model_id) -> <a href="./src/llama_stack_client/types/model.py">Model</a></code>
-- <code title="get /v1/models">client.models.<a href="./src/llama_stack_client/resources/models/models.py">list</a>() -> <a href="./src/llama_stack_client/types/model_list_response.py">ModelListResponse</a></code>
+- <code title="get /v1/openai/v1/models">client.models.<a href="./src/llama_stack_client/resources/models/models.py">list</a>() -> <a href="./src/llama_stack_client/types/model_list_response.py">ModelListResponse</a></code>
 - <code title="post /v1/models">client.models.<a href="./src/llama_stack_client/resources/models/models.py">register</a>(\*\*<a href="src/llama_stack_client/types/model_register_params.py">params</a>) -> <a href="./src/llama_stack_client/types/model.py">Model</a></code>
 - <code title="delete /v1/models/{model_id}">client.models.<a href="./src/llama_stack_client/resources/models/models.py">unregister</a>(model_id) -> None</code>
 
 ## OpenAI
 
+Types:
+
+```python
+from llama_stack_client.types.models import OpenAIListResponse
+```
+
 Methods:
 
-- <code title="get /v1/models">client.models.openai.<a href="./src/llama_stack_client/resources/models/openai.py">list</a>() -> <a href="./src/llama_stack_client/types/model_list_response.py">ModelListResponse</a></code>
+- <code title="get /v1/models">client.models.openai.<a href="./src/llama_stack_client/resources/models/openai.py">list</a>() -> <a href="./src/llama_stack_client/types/models/openai_list_response.py">OpenAIListResponse</a></code>
 
 # Providers
 
@@ -339,7 +345,7 @@ from llama_stack_client.types import ListRoutesResponse, RouteListResponse
 
 Methods:
 
-- <code title="get /v1/inspect/routes">client.routes.<a href="./src/llama_stack_client/resources/routes.py">list</a>() -> <a href="./src/llama_stack_client/types/route_list_response.py">RouteListResponse</a></code>
+- <code title="get /v1/inspect/routes">client.routes.<a href="./src/llama_stack_client/resources/routes.py">list</a>(\*\*<a href="src/llama_stack_client/types/route_list_params.py">params</a>) -> <a href="./src/llama_stack_client/types/route_list_response.py">RouteListResponse</a></code>
 
 # Moderations
 

diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "llama_stack_client"
-version = "0.4.0-alpha.1"
+version = "0.4.0-alpha.2"
 description = "The official Python library for the llama-stack-client API"
 dynamic = ["readme"]
 license = "MIT"

diff --git a/src/llama_stack_client/resources/models/models.py b/src/llama_stack_client/resources/models/models.py
@@ -108,9 +108,9 @@ def list(
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = not_given,
     ) -> ModelListResponse:
-        """List all models."""
+        """List models using the OpenAI API."""
         return self._get(
-            "/v1/models",
+            "/v1/openai/v1/models",
             options=make_request_options(
                 extra_headers=extra_headers,
                 extra_query=extra_query,
@@ -281,9 +281,9 @@ async def list(
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = not_given,
     ) -> ModelListResponse:
-        """List all models."""
+        """List models using the OpenAI API."""
         return await self._get(
-            "/v1/models",
+            "/v1/openai/v1/models",
             options=make_request_options(
                 extra_headers=extra_headers,
                 extra_query=extra_query,

diff --git a/src/llama_stack_client/resources/models/openai.py b/src/llama_stack_client/resources/models/openai.py
@@ -23,7 +23,7 @@
 )
 from ..._wrappers import DataWrapper
 from ..._base_client import make_request_options
-from ...types.model_list_response import ModelListResponse
+from ...types.models.openai_list_response import OpenAIListResponse
 
 __all__ = ["OpenAIResource", "AsyncOpenAIResource"]
 
@@ -57,7 +57,7 @@ def list(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = not_given,
-    ) -> ModelListResponse:
+    ) -> OpenAIListResponse:
         """List all models."""
         return self._get(
             "/v1/models",
@@ -66,9 +66,9 @@ def list(
                 extra_query=extra_query,
                 extra_body=extra_body,
                 timeout=timeout,
-                post_parser=DataWrapper[ModelListResponse]._unwrapper,
+                post_parser=DataWrapper[OpenAIListResponse]._unwrapper,
             ),
-            cast_to=cast(Type[ModelListResponse], DataWrapper[ModelListResponse]),
+            cast_to=cast(Type[OpenAIListResponse], DataWrapper[OpenAIListResponse]),
         )
 
 
@@ -101,7 +101,7 @@ async def list(
         extra_query: Query | None = None,
         extra_body: Body | None = None,
         timeout: float | httpx.Timeout | None | NotGiven = not_given,
-    ) -> ModelListResponse:
+    ) -> OpenAIListResponse:
         """List all models."""
         return await self._get(
             "/v1/models",
@@ -110,9 +110,9 @@ async def list(
                 extra_query=extra_query,
                 extra_body=extra_body,
                 timeout=timeout,
-                post_parser=DataWrapper[ModelListResponse]._unwrapper,
+                post_parser=DataWrapper[OpenAIListResponse]._unwrapper,
             ),
-            cast_to=cast(Type[ModelListResponse], DataWrapper[ModelListResponse]),
+            cast_to=cast(Type[OpenAIListResponse], DataWrapper[OpenAIListResponse]),
         )
 
 

diff --git a/src/llama_stack_client/resources/responses/responses.py b/src/llama_stack_client/resources/responses/responses.py
@@ -78,6 +78,7 @@ def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         stream: Literal[False] | Omit = omit,
         temperature: float | Omit = omit,
@@ -108,6 +109,8 @@ def create(
               response. This can be used to easily fork-off new responses from existing
               responses.
 
+          prompt: (Optional) Prompt object with ID, version, and variables.
+
           text: Text response configuration for OpenAI responses.
 
           extra_headers: Send extra headers
@@ -132,6 +135,7 @@ def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         temperature: float | Omit = omit,
         text: response_create_params.Text | Omit = omit,
@@ -161,6 +165,8 @@ def create(
               response. This can be used to easily fork-off new responses from existing
               responses.
 
+          prompt: (Optional) Prompt object with ID, version, and variables.
+
           text: Text response configuration for OpenAI responses.
 
           extra_headers: Send extra headers
@@ -185,6 +191,7 @@ def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         temperature: float | Omit = omit,
         text: response_create_params.Text | Omit = omit,
@@ -214,6 +221,8 @@ def create(
               response. This can be used to easily fork-off new responses from existing
               responses.
 
+          prompt: (Optional) Prompt object with ID, version, and variables.
+
           text: Text response configuration for OpenAI responses.
 
           extra_headers: Send extra headers
@@ -237,6 +246,7 @@ def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         stream: Literal[False] | Literal[True] | Omit = omit,
         temperature: float | Omit = omit,
@@ -260,6 +270,7 @@ def create(
                     "instructions": instructions,
                     "max_infer_iters": max_infer_iters,
                     "previous_response_id": previous_response_id,
+                    "prompt": prompt,
                     "store": store,
                     "stream": stream,
                     "temperature": temperature,
@@ -435,6 +446,7 @@ async def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         stream: Literal[False] | Omit = omit,
         temperature: float | Omit = omit,
@@ -465,6 +477,8 @@ async def create(
               response. This can be used to easily fork-off new responses from existing
               responses.
 
+          prompt: (Optional) Prompt object with ID, version, and variables.
+
           text: Text response configuration for OpenAI responses.
 
           extra_headers: Send extra headers
@@ -489,6 +503,7 @@ async def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         temperature: float | Omit = omit,
         text: response_create_params.Text | Omit = omit,
@@ -518,6 +533,8 @@ async def create(
               response. This can be used to easily fork-off new responses from existing
               responses.
 
+          prompt: (Optional) Prompt object with ID, version, and variables.
+
           text: Text response configuration for OpenAI responses.
 
           extra_headers: Send extra headers
@@ -542,6 +559,7 @@ async def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         temperature: float | Omit = omit,
         text: response_create_params.Text | Omit = omit,
@@ -571,6 +589,8 @@ async def create(
               response. This can be used to easily fork-off new responses from existing
               responses.
 
+          prompt: (Optional) Prompt object with ID, version, and variables.
+
           text: Text response configuration for OpenAI responses.
 
           extra_headers: Send extra headers
@@ -594,6 +614,7 @@ async def create(
         instructions: str | Omit = omit,
         max_infer_iters: int | Omit = omit,
         previous_response_id: str | Omit = omit,
+        prompt: response_create_params.Prompt | Omit = omit,
         store: bool | Omit = omit,
         stream: Literal[False] | Literal[True] | Omit = omit,
         temperature: float | Omit = omit,
@@ -617,6 +638,7 @@ async def create(
                     "instructions": instructions,
                     "max_infer_iters": max_infer_iters,
                     "previous_response_id": previous_response_id,
+                    "prompt": prompt,
                     "store": store,
                     "stream": stream,
                     "temperature": temperature,

diff --git a/src/llama_stack_client/resources/routes.py b/src/llama_stack_client/resources/routes.py
@@ -9,10 +9,13 @@
 from __future__ import annotations
 
 from typing import Type, cast
+from typing_extensions import Literal
 
 import httpx
 
-from .._types import Body, Query, Headers, NotGiven, not_given
+from ..types import route_list_params
+from .._types import Body, Omit, Query, Headers, NotGiven, omit, not_given
+from .._utils import maybe_transform, async_maybe_transform
 from .._compat import cached_property
 from .._resource import SyncAPIResource, AsyncAPIResource
 from .._response import (
@@ -51,6 +54,7 @@ def with_streaming_response(self) -> RoutesResourceWithStreamingResponse:
     def list(
         self,
         *,
+        api_filter: Literal["v1", "v1alpha", "v1beta", "deprecated"] | Omit = omit,
         # Use the following arguments if you need to pass additional parameters to the API that aren't available via kwargs.
         # The extra values given here take precedence over values defined on the client or passed to this method.
         extra_headers: Headers | None = None,
@@ -62,6 +66,20 @@ def list(
 
         List all available API routes with their methods and implementing
         providers.
+
+        Args:
+          api_filter: Optional filter to control which routes are returned. Can be an API level ('v1',
+              'v1alpha', 'v1beta') to show non-deprecated routes at that level, or
+              'deprecated' to show deprecated routes across all levels. If not specified,
+              returns only non-deprecated v1 routes.
+
+          extra_headers: Send extra headers
+
+          extra_query: Add additional query parameters to the request
+
+          extra_body: Add additional JSON properties to the request
+
+          timeout: Override the client-level default timeout for this request, in seconds
         """
         return self._get(
             "/v1/inspect/routes",
@@ -70,6 +88,7 @@ def list(
                 extra_query=extra_query,
                 extra_body=extra_body,
                 timeout=timeout,
+                query=maybe_transform({"api_filter": api_filter}, route_list_params.RouteListParams),
                 post_parser=DataWrapper[RouteListResponse]._unwrapper,
             ),
             cast_to=cast(Type[RouteListResponse], DataWrapper[RouteListResponse]),
@@ -99,6 +118,7 @@ def with_streaming_response(self) -> AsyncRoutesResourceWithStreamingResponse:
     async def list(
         self,
         *,
+        api_filter: Literal["v1", "v1alpha", "v1beta", "deprecated"] | Omit = omit,
         # Use the following arguments if you need to pass additional parameters to the API that aren't available via kwargs.
         # The extra values given here take precedence over values defined on the client or passed to this method.
         extra_headers: Headers | None = None,
@@ -110,6 +130,20 @@ async def list(
 
         List all available API routes with their methods and implementing
         providers.
+
+        Args:
+          api_filter: Optional filter to control which routes are returned. Can be an API level ('v1',
+              'v1alpha', 'v1beta') to show non-deprecated routes at that level, or
+              'deprecated' to show deprecated routes across all levels. If not specified,
+              returns only non-deprecated v1 routes.
+
+          extra_headers: Send extra headers
+
+          extra_query: Add additional query parameters to the request
+
+          extra_body: Add additional JSON properties to the request
+
+          timeout: Override the client-level default timeout for this request, in seconds
         """
         return await self._get(
             "/v1/inspect/routes",
@@ -118,6 +152,7 @@ async def list(
                 extra_query=extra_query,
                 extra_body=extra_body,
                 timeout=timeout,
+                query=await async_maybe_transform({"api_filter": api_filter}, route_list_params.RouteListParams),
                 post_parser=DataWrapper[RouteListResponse]._unwrapper,
             ),
             cast_to=cast(Type[RouteListResponse], DataWrapper[RouteListResponse]),

diff --git a/src/llama_stack_client/types/__init__.py b/src/llama_stack_client/types/__init__.py
@@ -44,6 +44,7 @@
 from .response_object import ResponseObject as ResponseObject
 from .file_list_params import FileListParams as FileListParams
 from .tool_list_params import ToolListParams as ToolListParams
+from .route_list_params import RouteListParams as RouteListParams
 from .scoring_fn_params import ScoringFnParams as ScoringFnParams
 from .file_create_params import FileCreateParams as FileCreateParams
 from .tool_list_response import ToolListResponse as ToolListResponse