huggingface · nsarrazin · Apr 4, 2024 · Jan 26, 2024 · Apr 3, 2024 · Apr 3, 2024
diff --git a/.env.template b/.env.template
@@ -64,7 +64,7 @@ MODELS=`[
       "description": "The latest and biggest model from Meta, fine-tuned for chat.",
       "logoUrl": "https://huggingface.co/datasets/huggingchat/models-logo/resolve/main/meta-logo.png",
       "websiteUrl": "https://ai.meta.com/llama/",
-      "preprompt": " ",
+      "preprompt": "",
       "chatPromptTemplate" : "<s>[INST] <<SYS>>\n{{preprompt}}\n<</SYS>>\n\n{{#each messages}}{{#ifUser}}{{content}} [/INST] {{/ifUser}}{{#ifAssistant}}{{content}} </s><s>[INST] {{/ifAssistant}}{{/each}}",
       "promptExamples": [
         {

diff --git a/package-lock.json b/package-lock.json
diff --git a/package.json b/package.json
@@ -54,7 +54,7 @@
 		"@huggingface/inference": "^2.6.3",
 		"@iconify-json/bi": "^1.1.21",
 		"@resvg/resvg-js": "^2.6.0",
-		"@xenova/transformers": "^2.6.0",
+		"@xenova/transformers": "^2.16.1",
 		"autoprefixer": "^10.4.14",
 		"browser-image-resizer": "^2.4.1",
 		"date-fns": "^2.29.3",
@@ -83,8 +83,8 @@
 	},
 	"optionalDependencies": {
 		"@anthropic-ai/sdk": "^0.17.1",
+		"@google-cloud/vertexai": "^0.5.0",
 		"aws4fetch": "^1.0.17",
-		"openai": "^4.14.2",
-		"@google-cloud/vertexai": "^0.5.0"
+		"openai": "^4.14.2"
 	}
 }
diff --git a/src/lib/components/TokensCounter.svelte b/src/lib/components/TokensCounter.svelte
@@ -1,6 +1,7 @@
 <script lang="ts">
 	import type { Model } from "$lib/types/Model";
-	import { AutoTokenizer, PreTrainedTokenizer } from "@xenova/transformers";
+	import { getTokenizer } from "$lib/utils/getTokenizer";
+	import type { PreTrainedTokenizer } from "@xenova/transformers";
 
 	export let classNames = "";
 	export let prompt = "";
@@ -9,23 +10,6 @@
 
 	let tokenizer: PreTrainedTokenizer | undefined = undefined;
 
-	async function getTokenizer(_modelTokenizer: Exclude<Model["tokenizer"], undefined>) {
-		if (typeof _modelTokenizer === "string") {
-			// return auto tokenizer
-			return await AutoTokenizer.from_pretrained(_modelTokenizer);
-		}
-		{
-			// construct & return pretrained tokenizer
-			const { tokenizerUrl, tokenizerConfigUrl } = _modelTokenizer satisfies {
-				tokenizerUrl: string;
-				tokenizerConfigUrl: string;
-			};
-			const tokenizerJSON = await (await fetch(tokenizerUrl)).json();
-			const tokenizerConfig = await (await fetch(tokenizerConfigUrl)).json();
-			return new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig);
-		}
-	}
-
 	async function tokenizeText(_prompt: string) {
 		if (!tokenizer) {
 			return;

diff --git a/src/lib/server/embeddingEndpoints/transformersjs/embeddingEndpoints.ts b/src/lib/server/embeddingEndpoints/transformersjs/embeddingEndpoints.ts
@@ -1,6 +1,6 @@
 import { z } from "zod";
 import type { EmbeddingEndpoint } from "../embeddingEndpoints";
-import type { Tensor, Pipeline } from "@xenova/transformers";
+import type { Tensor, FeatureExtractionPipeline } from "@xenova/transformers";
 import { pipeline } from "@xenova/transformers";
 
 export const embeddingEndpointTransformersJSParametersSchema = z.object({
@@ -11,9 +11,9 @@ export const embeddingEndpointTransformersJSParametersSchema = z.object({
 
 // Use the Singleton pattern to enable lazy construction of the pipeline.
 class TransformersJSModelsSingleton {
-	static instances: Array<[string, Promise<Pipeline>]> = [];
+	static instances: Array<[string, Promise<FeatureExtractionPipeline>]> = [];
 
-	static async getInstance(modelName: string): Promise<Pipeline> {
+	static async getInstance(modelName: string): Promise<FeatureExtractionPipeline> {
 		const modelPipelineInstance = this.instances.find(([name]) => name === modelName);
 
 		if (modelPipelineInstance) {

diff --git a/src/lib/server/models.ts b/src/lib/server/models.ts
@@ -14,7 +14,10 @@ import endpointTgi from "./endpoints/tgi/endpointTgi";
 import { sum } from "$lib/utils/sum";
 import { embeddingModels, validateEmbeddingModelByName } from "./embeddingModels";
 
+import type { PreTrainedTokenizer } from "@xenova/transformers";
+
 import JSON5 from "json5";
+import { getTokenizer } from "$lib/utils/getTokenizer";
 
 type Optional<T, K extends keyof T> = Pick<Partial<T>, K> & Omit<T, K>;
 
@@ -39,23 +42,9 @@ const modelConfig = z.object({
 		.optional(),
 	datasetName: z.string().min(1).optional(),
 	datasetUrl: z.string().url().optional(),
-	userMessageToken: z.string().default(""),
-	userMessageEndToken: z.string().default(""),
-	assistantMessageToken: z.string().default(""),
-	assistantMessageEndToken: z.string().default(""),
-	messageEndToken: z.string().default(""),
 	preprompt: z.string().default(""),
 	prepromptUrl: z.string().url().optional(),
-	chatPromptTemplate: z
-		.string()
-		.default(
-			"{{preprompt}}" +
-				"{{#each messages}}" +
-				"{{#ifUser}}{{@root.userMessageToken}}{{content}}{{@root.userMessageEndToken}}{{/ifUser}}" +
-				"{{#ifAssistant}}{{@root.assistantMessageToken}}{{content}}{{@root.assistantMessageEndToken}}{{/ifAssistant}}" +
-				"{{/each}}" +
-				"{{assistantMessageToken}}"
-		),
+	chatPromptTemplate: z.string().optional(),
 	promptExamples: z
 		.array(
 			z.object({
@@ -84,11 +73,65 @@ const modelConfig = z.object({
 
 const modelsRaw = z.array(modelConfig).parse(JSON5.parse(MODELS));
 
+async function getChatPromptRender(
+	m: z.infer<typeof modelConfig>
+): Promise<ReturnType<typeof compileTemplate<ChatTemplateInput>>> {
+	if (m.chatPromptTemplate) {
+		return compileTemplate<ChatTemplateInput>(m.chatPromptTemplate, m);
+	} else {
+		let tokenizer: PreTrainedTokenizer;
+
+		if (!m.tokenizer) {
+			throw new Error(
+				"No tokenizer specified and no chat prompt template specified for model " + m.name
+			);
+		}
+
+		try {
+			tokenizer = await getTokenizer(m.tokenizer);
+		} catch (e) {
+			throw Error(
+				"Failed to load tokenizer for model " +
+					m.name +
+					" consider setting chatPromptTemplate manually or making sure the model is available on the hub."
+			);
+		}
+
+		const renderTemplate = ({ messages, preprompt }: ChatTemplateInput) => {
+			let formattedMessages: { role: string; content: string }[] = messages.map((message) => ({
+				content: message.content,
+				role: message.from,
+			}));
+
+			if (preprompt) {
+				formattedMessages = [
+					{
+						role: "system",
+						content: preprompt,
+					},
+					...formattedMessages,
+				];
+			}
+
+			const output = tokenizer.apply_chat_template(formattedMessages, {
+				tokenize: false,
+				add_generation_prompt: true,
+			});
+
+			if (typeof output !== "string") {
+				throw new Error("Failed to apply chat template, the output is not a string");
+			}
+
+			return output;
+		};
+
+		return renderTemplate;
+	}
+}
+
 const processModel = async (m: z.infer<typeof modelConfig>) => ({
 	...m,
-	userMessageEndToken: m?.userMessageEndToken || m?.messageEndToken,
-	assistantMessageEndToken: m?.assistantMessageEndToken || m?.messageEndToken,
-	chatPromptRender: compileTemplate<ChatTemplateInput>(m.chatPromptTemplate, m),
+	chatPromptRender: await getChatPromptRender(m),
 	id: m.id || m.name,
 	displayName: m.displayName || m.name,
 	preprompt: m.prepromptUrl ? await fetch(m.prepromptUrl).then((r) => r.text()) : m.preprompt,