Livepool llm rebased #210

ad-astra-video · 2024-09-21T05:16:04Z

Rebase Livepool LLM PR showing updates to rebase to current ai-worker and couple fixes:

return managed container after stream response is completed rather than immediately.
fix containerHosts port to match to route for managed containers.
move check_torch_cuda.py helper file to dev folder

rickstaa · 2024-09-23T15:52:24Z

runner/app/main.py

@@ -54,6 +54,9 @@ def load_pipeline(pipeline: str, model_id: str) -> any:
            from app.pipelines.segment_anything_2 import SegmentAnything2Pipeline

            return SegmentAnything2Pipeline(model_id)
+        case "llm-generate":


@kyriediculous can we rename this to chat-completion? See discussion here.

rickstaa · 2024-09-23T15:54:01Z

runner/app/pipelines/llm_generate.py

+
+logger = logging.getLogger(__name__)
+
+def get_max_memory():


Can we move this to https://github.com/livepeer/ai-worker/blob/main/runner/app/pipelines/utils/utils.py.

rickstaa · 2024-09-23T15:56:51Z

runner/app/routes/llm_generate.py

+    response_model=LlmResponse,
+    responses=RESPONSES,
+    description="Generate text responses from input prompts using a large language model.",
+    operation_id="genLlm",


@victorges can you check the SDK parameters are as expected 🙏🏻.

Done! Sent inline comment above

rickstaa · 2024-09-23T15:57:24Z

runner/requirements.txt

@@ -16,4 +16,3 @@ scipy==1.13.0
 numpy==1.26.4
 av==12.1.0
 sentencepiece== 0.2.0
-protobuf==5.27.2


Why was this requirement removed?

Error from moving the requirements to a new docker image build. Added back.

victorges · 2024-09-23T17:39:40Z

runner/app/routes/llm_generate.py

+logger = logging.getLogger(__name__)
+
+RESPONSES = {
+    status.HTTP_200_OK: {"model": LlmResponse},


I believe the only thing missing is adding the response name override for the SDK like this

ai-worker/runner/app/routes/image_to_video.py

Line 25 in 5994f25

"x-speakeasy-name-override": "data",

victorges

Reviewing only the API/SDK shape

victorges · 2024-09-23T17:39:48Z

runner/app/routes/llm_generate.py

+    response_model=LlmResponse,
+    responses=RESPONSES,
+    description="Generate text responses from input prompts using a large language model.",
+    operation_id="genLlm",


Done! Sent inline comment above

victorges · 2024-09-23T17:46:37Z

runner/app/routes/llm_generate.py

+@router.post(
+    "/llm-generate",
+    response_model=LlmResponse,
+    responses=RESPONSES,
+    description="Generate text responses from input prompts using a large language model.",
+    operation_id="genLlm",
+    summary="LLM Generate",
+    tags=["generate"],
+    openapi_extra={"x-speakeasy-name-override": "llm"},
+)


I would remove generate from the endpoint as it gets redundant, since we are already calling all the AI APIs "generate" for now. My current preferred option would be:

Suggested change

@router.post(

"/llm-generate",

response_model=LlmResponse,

responses=RESPONSES,

description="Generate text responses from input prompts using a large language model.",

operation_id="genLlm",

summary="LLM Generate",

tags=["generate"],

openapi_extra={"x-speakeasy-name-override": "llm"},

)

@router.post(

"/chat-completion",

response_model=LlmResponse,

responses=RESPONSES,

description="Generate text responses from input prompts using a language model.",

operation_id="genChatCompletion",

summary="Chat Completion",

tags=["generate"],

openapi_extra={"x-speakeasy-name-override": "chatCompletion"},

)

In the SDK, this would look like: client.generate.chat_completion(...)

WDYT?

Update, @kyriediculous made a good point about not using "chat completion" to avoid confusion since we don't really implement OpenAIs interface. My current preferred options, highest to lowest, are now:

/chat

/llm

/text

With the corresponding operation_id/summary/speakeasy name.

Suggested change

@router.post(

"/llm-generate",

response_model=LlmResponse,

responses=RESPONSES,

description="Generate text responses from input prompts using a large language model.",

operation_id="genLlm",

summary="LLM Generate",

tags=["generate"],

openapi_extra={"x-speakeasy-name-override": "llm"},

)

@router.post(

"/chat",

response_model=LlmResponse,

responses=RESPONSES,

description="Generate text responses from input prompts using a language model.",

operation_id="genChat",

summary="Chat",

tags=["generate"],

openapi_extra={"x-speakeasy-name-override": "chat"},

)

and in the SDK it looks like client.generate.chat

Thanks for your suggestions. My preference is with Chat as GenerateChat does also make sense 👍.

ad-astra-video · 2024-09-27T21:09:51Z

Closing,LLM PR by Livepool is updated

kyriediculous and others added 19 commits September 18, 2024 15:37

runner: add llm-generate route and pipeline

76f0988

add llama3.1 8B to downloads

39cd6b6

worker: add llm-generate container management

36556be

update transformers

340c552

llm: support streamed responses

04de2f3

Load LLM model distributed over multiple GPUs

7798076

feat: support 8bit and fp16 for llm pipeline

c4f4c93

fix streaming and full multipart body for llm

60cbf4f

fix history parsing

a3c5606

update openapi spec to latest

6561811

naming changes with rebase/openapi updates and fix rebasing duplicate

970b2fa

move utility file to dev folder

240e16d

revert requirements.txt change for triton version

e51b49b

add new sdk tags to llm-generate route

9461530

update openapi using new tags

51f1fde

fix docker containerHosts to match pipeline

49cb7a9

add log line when container returns

9e1b30e

fix runner container return to after stream is completed

9e1c48a

return container with non-streamed response

5d83b83

ad-astra-video marked this pull request as ready for review September 23, 2024 06:41

ad-astra-video requested a review from rickstaa as a code owner September 23, 2024 06:41

ad-astra-video changed the title ~~DRAFT: Livepool llm rebased~~ Livepool llm rebased Sep 23, 2024

move llm to separate dockerfile build

b6a790d

rickstaa reviewed Sep 23, 2024

View reviewed changes

add default container for LLM and fix requirements.txt

241cf7a

victorges reviewed Sep 23, 2024

View reviewed changes

ad-astra-video closed this Sep 27, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Livepool llm rebased #210

Livepool llm rebased #210

ad-astra-video commented Sep 21, 2024 •

edited

Loading

rickstaa Sep 23, 2024

rickstaa Sep 23, 2024 •

edited

Loading

rickstaa Sep 23, 2024

victorges Sep 23, 2024

rickstaa Sep 23, 2024

ad-astra-video Sep 23, 2024

victorges Sep 23, 2024

victorges left a comment

victorges Sep 23, 2024

victorges Sep 23, 2024

victorges Sep 23, 2024 •

edited

Loading

victorges Sep 23, 2024

rickstaa Sep 23, 2024

ad-astra-video commented Sep 27, 2024

Livepool llm rebased #210

Livepool llm rebased #210

Conversation

ad-astra-video commented Sep 21, 2024 • edited Loading

Choose a reason for hiding this comment

rickstaa Sep 23, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

victorges left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

victorges Sep 23, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

ad-astra-video commented Sep 27, 2024

ad-astra-video commented Sep 21, 2024 •

edited

Loading

rickstaa Sep 23, 2024 •

edited

Loading

victorges Sep 23, 2024 •

edited

Loading