add load_added_tokens; support med-r1.

foldl · foldl · commit 7dc69cc64b38 · 2025-04-16T17:13:22.000+08:00
diff --git a/docs/models.md b/docs/models.md
@@ -11,6 +11,7 @@
 * Baichuan (`BaichuanForCausalLM`, `BaichuanM1ForCausalLM`)
     * [x] [Chat-7B](https://huggingface.co/baichuan-inc/Baichuan2-7B-Chat), [Chat-13B](https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat)
     * [x] M1: [Instruct-14B](https://huggingface.co/baichuan-inc/Baichuan-M1-14B-Instruct)
+    * [x] Fine-tunings: [Med-R1](https://modelscope.cn/models/wangrongsheng/Med-R1/files) (Tip: `--set chat_template im`)
 
 * BlueLM (`BlueLMForCausalLM`)
     * [x] [Chat-7B](https://huggingface.co/vivo-ai/BlueLM-7B-Chat), [Chat-7B 32K](https://huggingface.co/vivo-ai/BlueLM-7B-Chat-32K)
diff --git a/models/baichuan.cpp b/models/baichuan.cpp
@@ -139,14 +139,21 @@ namespace m1
     {
     public:
         Tokenizer(const Config &config)
-            : llama::v2::Tokenizer(config, &_chat_encoder)
+            : llama::v2::Tokenizer(config, &_chat_encoder),
+              im_end_token_id(-1)
         {
             sys_prompt = "You are a helpful assistant.";
         }
 
         size_t load(tokenizer::DataReader *buffer, int n_vocab) override
         {
             size_t r = llama::v2::Tokenizer::load(buffer, n_vocab);
+
+            int id = tp->PieceToId("<reserved_147>");
+            if (id >= 0) tp->OverrideTokenDecoding(id, "<think>");
+            id = tp->PieceToId("<reserved_148>");
+            if (id >= 0) tp->OverrideTokenDecoding(id, "</think>");
+
             b_sys_token_id      = 71;
             b_usys_token_id     = 72;
             c_q_token_id        = 73;
@@ -163,13 +170,34 @@ namespace m1
             llama::v2::Tokenizer::encode(text, ids);
         }
 
+        bool load_config(const json::JSON &config) override
+        {
+            load_added_tokens(config, {
+                {"<B_SYS>",          &b_sys_token_id},
+                {"<B_USYS>",         &b_usys_token_id},
+                {"<C_Q>",            &c_q_token_id},
+                {"<C_A>",            &c_a_token_id},
+                {"<B_FUNC>",         &b_func_token_id},
+                {"<B_CODE>",         &b_code_token_id},
+                {"<|im_start|>",     &im_start_token_id},
+                {"<|im_end|>",       &im_end_token_id},
+            });
+
+            if (im_end_token_id >= 0)
+                terminate_ids.insert(im_end_token_id);
+
+            return true;
+        }
+
     public:
         int b_sys_token_id;
         int b_usys_token_id;
         int c_q_token_id;
         int c_a_token_id;
         int b_func_token_id;
         int b_code_token_id;
+        int im_start_token_id;
+        int im_end_token_id;
     };
 
     void ChatHistoryEncoder::append_sys_prompt(std::vector<int> &ids) const
@@ -202,6 +230,54 @@ namespace m1
         ids.push_back(tok->c_a_token_id);
     }
 
+    static class ImChatHistoryEncoder : public BaseHistoryEncoder
+    {
+    public:
+        void append_sys_prompt(std::vector<int> &ids) const override
+        {
+            Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+
+            if (tok->get_system_prompt().size() > 0)
+            {
+                ids.push_back(tok->im_start_token_id);
+                tok->encode("system\n", ids);
+                tok->encode(tok->get_system_prompt(), ids);
+                ids.push_back(tok->im_end_token_id);
+                tok->encode("\n", ids);
+            }
+        }
+        void append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const override
+        {
+            Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+            append_ai_opening(round_idx, ids);
+            tok->encode(ai, ids);
+            ids.push_back(tok->im_end_token_id);
+            tok->encode("\n", ids);
+        }
+        void append_user(int round_idx, const std::string &user, std::vector<int> &ids) const override
+        {
+            Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+            append_user_opening(round_idx, ids);
+            tok->encode(user, ids);
+            ids.push_back(tok->im_end_token_id);
+            tok->encode("\n", ids);
+        }
+
+        void append_ai_opening(int round_idx, std::vector<int> &ids) const override
+        {
+            Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+            ids.push_back(tok->im_start_token_id);
+            tok->encode("assistant\n", ids);
+        }
+
+        void append_user_opening(int round_idx, std::vector<int> &ids) const override
+        {
+            Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+            ids.push_back(tok->im_start_token_id);
+            tok->encode("user\n", ids);
+        }
+    } _im_chat_encoder;
+
     template <int sliding_window_len> class BaiChuanSWASelfAttention : public RoPESelfAttention<SlidingWindowAttentionImpl<sliding_window_len>>
     {
     public:
@@ -316,6 +392,18 @@ namespace m1
                 << "corrupted model weights: " << w_ctx_.get_used_mem() / ggml_tensor_overhead() << " != " << w_ctx_.get_mem_size() / ggml_tensor_overhead();
         }
 
+        void set_additional_args(const std::map<std::string, std::string> &args) override
+        {
+            auto it = args.find("chat_template");
+            if (it != args.end())
+            {
+                if (it->second == "im")
+                {
+                    tokenizer->set_chat_encoder(&_im_chat_encoder);
+                }
+            }
+        }
+
         void load(ModelLoader &loader) override
         {
             auto transformer = get_typed_transformer<ModelClass>();
diff --git a/models/kimi.cpp b/models/kimi.cpp
@@ -71,25 +71,20 @@ namespace vl
 
         bool load_config(const json::JSON &config) override
         {
-            auto cfg = config["tokenizer_config.json"];
-            if (!cfg.IsObject()) return false;
-            auto added_tokens_decoder = cfg["added_tokens_decoder"];
-            if (!added_tokens_decoder.IsObject()) return false;
-
-            for (auto &item : added_tokens_decoder.ObjectRange())
-            {
-                #define check_token(tok) if ("<|" #tok "|>" == item.second["content"].ToString()) tok ## _token_id = std::stol(item.first)
-                check_token(im_end);
-                else check_token(im_user);
-                else check_token(im_assistant);
-                else check_token(im_system);
-                else check_token(im_middle);
-                else check_token(media_start);
-                else check_token(media_content);
-                else check_token(media_end);
-                else check_token(media_pad);
-                else;
-            }
+            #define check_token(tok) {std::string("<|" #tok "|>"), &(tok ## _token_id)}
+
+            load_added_tokens(config, {
+                check_token(im_end),
+                check_token(im_user),
+                check_token(im_assistant),
+                check_token(im_system),
+                check_token(im_middle),
+                check_token(media_start),
+                check_token(media_content),
+                check_token(media_end),
+                check_token(media_pad),
+            });
+            #undef check_token
 
             if (im_end_token_id >= 0)
                 terminate_ids.insert(im_end_token_id);
diff --git a/scripts/richchat.py b/scripts/richchat.py
@@ -71,8 +71,11 @@ def callback_async_done(self) -> None:
 
 llm: RichChatLLM = None
 MAX_THOUGHT_TIME = 60 * 3
+multiple_lines_input = False
 
 def params_preprocess(params: list[str]) -> list[str]:
+    global multiple_lines_input
+    multiple_lines_input = '--multi' in params
     for i, s in enumerate(params):
         if (s == '--max-thought-time') and (i + 1 < len(params)):
             global MAX_THOUGHT_TIME
@@ -90,20 +93,31 @@ def handler(signal_received, frame):
         llm.show_meta('Statistics')
         sys.exit(0)
 
+def user_input(prompt: str) -> str:
+    global multiple_lines_input
+    if multiple_lines_input:
+        print(prompt, end='', flush=True)
+        return sys.stdin.read()
+    else:
+        return input(prompt)
+
 def demo_simple(params, lib_path: str, cls = RichChatLLM):
     global llm
+    global multiple_lines_input
     signal.signal(signal.SIGINT, handler)
     llm = cls(LibChatLLM(lib_path), params)
 
     llm.show_meta('Model')
+    if multiple_lines_input:
+        print('Press Ctrl+D / Ctrl+Z (Windows) to finish input')
 
     render_ai = lambda: llm.render_ai()
     render_thoughts = lambda: llm.render_thoughts()
 
     console = Console()
 
     while True:
-        s = input('You  > ')
+        s = user_input('You  > ')
         if s == '': continue
 
         if s.startswith('/start'):
diff --git a/src/chat.cpp b/src/chat.cpp
@@ -350,6 +350,13 @@ namespace chatllm
             qa_encoder->set_tokenizer(this);
     }
 
+    void BaseTokenizer::set_chat_encoder(BaseHistoryEncoder *encoder)
+    {
+        chat_encoder = encoder;
+        if (encoder)
+            encoder->set_tokenizer(this);
+    }
+
     bool BaseTokenizer::is_terminate_token_id(int id) const
     {
         if (id == eos_token_id) return true;
@@ -543,6 +550,31 @@ namespace chatllm
             qa_encoder->skip_sys_prompt = skip;
     }
 
+    int BaseTokenizer::load_added_tokens(const json::JSON &config, std::initializer_list<std::pair<std::string, int *>> added_tokens)
+    {
+        int r = -1;
+        auto cfg = config["tokenizer_config.json"];
+        if (!cfg.IsObject()) return r;
+        auto added_tokens_decoder = cfg["added_tokens_decoder"];
+        if (!added_tokens_decoder.IsObject()) return r;
+
+        r = 0;
+
+        for (auto &item : added_tokens_decoder.ObjectRange())
+        {
+            for( auto tok = added_tokens.begin(), e = added_tokens.end(); tok != e; ++tok)
+            {
+                if (tok->first == item.second["content"].ToString())
+                {
+                    *tok->second = std::stol(item.first);
+                    break;
+                }
+            }
+        }
+
+        return r;
+    }
+
     void BaseHistoryEncoder::append_sys_prompt(std::vector<int> &ids) const
     {
     }
diff --git a/src/chat.h b/src/chat.h
@@ -192,6 +192,8 @@ namespace chatllm
 
         virtual void set_skip_sys_prompt(bool skip);
 
+        void set_chat_encoder(BaseHistoryEncoder *encoder);
+
         int bos_token_id;
         int eos_token_id;
         int pad_token_id;
@@ -203,6 +205,8 @@ namespace chatllm
         virtual std::string preprocess(const std::string &text) const;
         virtual std::string postprocess(const std::string &text) const;
 
+        int load_added_tokens(const json::JSON &config, std::initializer_list<std::pair<std::string, int *>> added_tokens);
+
     public:
         tokenizer::Processor *tp;
     protected:
diff --git a/src/main.cpp b/src/main.cpp
@@ -233,6 +233,7 @@ void usage(const std::string &prog)
               << "  --log_level             log level. (default: 4 - ERROR)\n"
               << "  --serve_rpc [H:]P[@id]  as a RPC server on host:port (optional: host default to 127.0.0.1, id defaults to 0)        [#]\n"
               << "  --ggml_dir DIR          specify directory of GGML\n"
+              << "  --set KEY VALUE         set a pair of additional args.\n"
               << "Additional key-value args:\n"
               << "  --kv                    start of additional args. all following options are interpreted as k-v pairs\n"
               << "  key value               a key-value pair of args\n"
@@ -377,6 +378,14 @@ static size_t parse_args(Args &args, const std::vector<std::string> &argv)
                     args.detect_thoughts = true;
                 }
             }
+            else if (strcmp(arg, "--set") == 0)
+            {
+                if (c + 2 < argc)
+                {
+                    args.additional[argv[c + 1]] = argv[c + 2];
+                    c += 2;
+                }
+            }
             handle_param("--model",                 "-m", model_path,           std::string)
             handle_param("--prompt",                "-p", prompt,               std::string)
             handle_para0("--prompt_file",                 prompt,               load_txt)