support do_sample parameter #2375

irexyc · 2024-08-26T10:35:25Z

Motivation

merge EngineGenerationConfig / GenerationConfig
align gen_config logic with transformers
prevent modification of gen_config.random_seed

# transformers batch generate
from transformers import LlamaTokenizer, AutoModelForCausalLM
import torch

tokenizer = LlamaTokenizer.from_pretrained("/mnt/140/llama2/huggingface/llama-2-7b-chat/")
model = AutoModelForCausalLM.from_pretrained("/mnt/140/llama2/huggingface/llama-2-7b-chat/", torch_dtype=torch.float16, device_map="auto")

tokenizer.padding_side = "left"

# Define PAD Token = EOS Token
tokenizer.pad_token = tokenizer.eos_token
model.config.pad_token_id = model.config.eos_token_id

# use different length sentences to test batching
sentences = [
         "Hello, my dog is a little",
         "Hello, my dog is a little",
 ]

inputs = tokenizer(sentences, return_tensors="pt", padding=True).to(model.device)

output_sequences = model.generate(**inputs, do_sample=False, max_new_tokens=20)
out = tokenizer.batch_decode(output_sequences, skip_special_tokens=True)
print(f'{out[0]}\n{out[1]}\n')

output_sequences = model.generate(**inputs, do_sample=True, max_new_tokens=20)
out = tokenizer.batch_decode(output_sequences, skip_special_tokens=True)
print(f'{out[0]}\n{out[1]}\n')

lmdeploy/messages.py

lvhan028 · 2024-08-28T09:48:11Z

May conclude the demo results

lmdeploy/messages.py

lvhan028 · 2024-08-28T12:39:21Z

api_server.py should also be updated.
The following is how api_server instantiates GenerationConfig. But now do_sample is added and its default value is False.
So api_server will always request greedy search.

    gen_config = GenerationConfig(
        max_new_tokens=request.max_tokens if request.max_tokens else 512,
        logprobs=request.logprobs,
        top_k=request.top_k,
        top_p=request.top_p,
        temperature=request.temperature,
        repetition_penalty=request.repetition_penalty,
        ignore_eos=request.ignore_eos,
        stop_words=request.stop,
        skip_special_tokens=request.skip_special_tokens,
        random_seed=random_seed)

lmdeploy/serve/async_engine.py

AllentDan · 2024-08-30T10:34:33Z

lmdeploy/serve/openai/api_server.py

@@ -360,6 +360,7 @@ async def chat_completions_v1(request: ChatCompletionRequest,

    gen_config = GenerationConfig(
        max_new_tokens=request.max_tokens,
+        do_sample=True,


shall we make it a request option?

I think it's unnecessary since users can still use top_k=1 or temperature=0. to invoke greedy search

lmdeploy/serve/async_engine.py

lvhan028 · 2024-09-01T09:08:53Z

lmdeploy/messages.py

+        bad_words = special_word_token_ids(self.bad_words) or []
+        stop_words.extend(self.stop_words_ids or [])
+        bad_words.extend(self.bad_words_ids or [])
+        self.stop_words_ids = list(set(stop_words)) or None


stop_words could be a list of list, which can be use set

a = [[123], [456]] b = set(a) # TypeError: unhashable type: 'list'

Why stop_words could be a list of list?

I tested the following case:

gen_config = GenerationConfig( stop_words=chat_template.stop_words, stop_token_ids=[[92542], [92540]] # list of list )

tests/test_lmdeploy/test_messages.py

lmdeploy/messages.py

lvhan028 · 2024-09-01T09:22:08Z

lmdeploy/messages.py

-            stop_words=special_word_token_ids(gen_config.stop_words),
-            bad_words=special_word_token_ids(gen_config.bad_words),
-            logits_processors=gen_config.logits_processors)
+        stop_words = special_word_token_ids(self.stop_words) or []


May assert self.stop_words_ids and self.bad_words_ids None for now.
Otherwise, it probably brings in side effects if users input some unexpected token_id.

support do_sample parameter

da4918e

lvhan028 reviewed Aug 26, 2024

View reviewed changes

lmdeploy/messages.py Outdated Show resolved Hide resolved

irexyc added 3 commits August 26, 2024 13:07

merge GenerationConfig & EngineGenerationConfig

fb62a5e

align gen_config with logic with transformers

ad8b988

add comments

aaab00c

lvhan028 added the improvement label Aug 28, 2024

lvhan028 requested a review from AllentDan August 28, 2024 09:47

AllentDan reviewed Aug 28, 2024

View reviewed changes

lmdeploy/messages.py Outdated Show resolved Hide resolved

lvhan028 reviewed Aug 28, 2024

View reviewed changes

lmdeploy/messages.py Outdated Show resolved Hide resolved

fix comments

b349486

AllentDan reviewed Aug 30, 2024

View reviewed changes

lmdeploy/serve/async_engine.py Show resolved Hide resolved

AllentDan reviewed Aug 30, 2024

View reviewed changes

lvhan028 reviewed Sep 1, 2024

View reviewed changes

lmdeploy/serve/async_engine.py Show resolved Hide resolved

lvhan028 reviewed Sep 1, 2024

View reviewed changes

tests/test_lmdeploy/test_messages.py Show resolved Hide resolved

lvhan028 reviewed Sep 1, 2024

View reviewed changes

lmdeploy/messages.py Outdated Show resolved Hide resolved

lvhan028 reviewed Sep 1, 2024

View reviewed changes

irexyc added 3 commits September 2, 2024 03:00

fix comments

af605c8

rename stop_words_ids -> stop_token_ids

b539721

update tests

106e4f3

lvhan028 approved these changes Sep 2, 2024

View reviewed changes

lzhangzz approved these changes Sep 2, 2024

View reviewed changes

AllentDan approved these changes Sep 2, 2024

View reviewed changes

lvhan028 merged commit 7519a35 into InternLM:main Sep 2, 2024
4 of 5 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support do_sample parameter #2375

support do_sample parameter #2375

irexyc commented Aug 26, 2024 •

edited

Loading

lvhan028 commented Aug 28, 2024

lvhan028 commented Aug 28, 2024

AllentDan Aug 30, 2024

lvhan028 Aug 30, 2024

lvhan028 Sep 1, 2024

irexyc Sep 2, 2024

lvhan028 Sep 2, 2024

lvhan028 Sep 1, 2024

support do_sample parameter #2375

support do_sample parameter #2375

Conversation

irexyc commented Aug 26, 2024 • edited Loading

Motivation

lvhan028 commented Aug 28, 2024

lvhan028 commented Aug 28, 2024

AllentDan Aug 30, 2024

Choose a reason for hiding this comment

lvhan028 Aug 30, 2024

Choose a reason for hiding this comment

lvhan028 Sep 1, 2024

Choose a reason for hiding this comment

irexyc Sep 2, 2024

Choose a reason for hiding this comment

lvhan028 Sep 2, 2024

Choose a reason for hiding this comment

lvhan028 Sep 1, 2024

Choose a reason for hiding this comment

irexyc commented Aug 26, 2024 •

edited

Loading