Skip to content

[Feature] 可以支持embedding模型吗,类似于xinference的功能 #1927

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Closed
jxfruit opened this issue Jul 5, 2024 · 13 comments
Closed

Comments

@jxfruit
Copy link

jxfruit commented Jul 5, 2024

Motivation

具体场景就是,想利用lmdeploy提供超快的推理能力,然后用一个私有化的知识库工具langchain-chatchat,这个需要embedding模型支持,所以看下大佬们有没有这方面的规划

Related resources

No response

Additional context

No response

@lvhan028
Copy link
Collaborator

lvhan028 commented Jul 5, 2024

可否提供一个 embedding 模型的 list?我们先调研下看看

@jxfruit
Copy link
Author

jxfruit commented Jul 5, 2024

@lvhan028
Copy link
Collaborator

lvhan028 commented Jul 5, 2024

@AllentDan Could you investigate this feature?

@thiner
Copy link

thiner commented Jul 5, 2024

如果支持embedding模型,最好也能支持reranker模型。可以参考:mudler/LocalAI#2121
可用模型https://huggingface.co/BAAI/bge-reranker-v2-m3 进行测试

@lvhan028
Copy link
Collaborator

lvhan028 commented Jul 5, 2024

我们需要调研下,看好不好支持,以及怎么支持。
在调研结论出来之前,不能给什么承诺。还请谅解。

@lvhan028
Copy link
Collaborator

@jxfruit 你是想用 lmdeploy 加速 embeddings 模型的推理,是吧

@AllentDan
Copy link
Collaborator

I will check the implementations of fastchat and xinference.

@jxfruit
Copy link
Author

jxfruit commented Jul 12, 2024

@jxfruit 你是想用 lmdeploy 加速 embeddings 模型的推理,是吧

如果可以支持的话当然最好了,我目前最大诉求就是能支持推理就行,不用加速,以后做加速也可以

@AllentDan
Copy link
Collaborator

AllentDan commented Jul 16, 2024

@jxfruit 用过 fastchat 的 embedding 服务吗?先确定一下,类 llama 模型的 embedding 是否符合你需求。目前我这边使用了几个支持 embedding 模型的开源框架,主要是 bert,T5 和 llama。llama 模型只有 fastchat 支持。

update:
vllm 支持了一个 Mistral 结构的 embedding 模型

@jxfruit
Copy link
Author

jxfruit commented Jul 17, 2024

@jxfruit 用过 fastchat 的 embedding 服务吗?先确定一下,类 llama 模型的 embedding 是否符合你需求。目前我这边使用了几个支持 embedding 模型的开源框架,主要是 bert,T5 和 llama。llama 模型只有 fastchat 支持

fastchat 没有用过,我们目前对具体的模型还没有诉求。但是看了一些,目前还是主要考虑xinference,建议参考下xinference这个项目呢,从Langchain-Chatchat项目里摘过来的一个本地部署框架的对比:
image

@Tendo33
Copy link

Tendo33 commented Jul 18, 2024

附议,这样的话一所有部署任务一个框架就统一了.
目前比较统一的框架:https://github.com/xusenlinzy/api-for-open-llm

@HughesZhang2021
Copy link

looking forward to supporting embedding model soon....

@lvhan028
Copy link
Collaborator

Hi, folks,
感谢大家对 LMDeploy 的支持和认可。很遗憾,经过我们内部的分析和讨论后,决定暂不支持 embedding 模型。
在未来半年的工作中,我们会专注于 LLM 的推理优化,以及支持 InternLM 的内部研发。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants