Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

BCE Fine tuning #33

Open
YiboZhao624 opened this issue Mar 22, 2024 · 7 comments
Open

BCE Fine tuning #33

YiboZhao624 opened this issue Mar 22, 2024 · 7 comments

Comments

@YiboZhao624
Copy link

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。

现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

@shenlei1020
Copy link
Collaborator

您好,感谢对bce项目的关注!
1、先了解一下背景,您的业务场景是什么语种,什么场景?哪些情况做不好呢?
2、因为bce模型我们专门做了很多领域覆盖,再做微调可能会损害模型效果。

@YiboZhao624
Copy link
Author

您好,感谢对bce项目的关注! 1、先了解一下背景,您的业务场景是什么语种,什么场景?哪些情况做不好呢? 2、因为bce模型我们专门做了很多领域覆盖,再做微调可能会损害模型效果。

passages是中英双语混杂的简历文本,我将其chunk为300token的长度输入到BCEmbedding中,然后query是工作岗位描述文本,相对比较短,将其先输入到BCEmbedding中,然后通过余弦相似度搜索相似的简历,最后过Reranker得到排序。目前做得不太好的例子还在统计中,暂时没有详细描述

@whyiug
Copy link

whyiug commented Mar 29, 2024

  • 1 特殊场景-大陆内容审核领域
    确实需要微调才能保证效果

@l793330708
Copy link

能用CosEnt这种自己构建数据集进行BCEmbedding的微调吗?数据同样比较偏领域性,微调应该适应性更好

您好,感谢对bce项目的关注! 1、先了解一下背景,您的业务场景是什么语种,什么场景?哪些情况做不好呢? 2、因为bce模型我们专门做了很多领域覆盖,再做微调可能会损害模型效果。

@sevenandseven
Copy link

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。

现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

你好,我发现用bge的工程可以对bce-reranker进行微调,你有测试过吗?但是我微调之后计算得分非常低,已知是e的-2左右的值的,不知道是什么原因?

@YiboZhao624
Copy link
Author

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。
现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

你好,我发现用bge的工程可以对bce-reranker进行微调,你有测试过吗?但是我微调之后计算得分非常低,已知是e的-2左右的值的,不知道是什么原因?

好像bge的一些配置和bce是不一样的,我建议你先检查一下你的配置是否正确,但是我没有用bge的工程跑过,所以我也不确定。然后我已经找到了微调的一个项目,你也可以参考一下:https://github.com/NLPJCL/RAG-Retrieval

@sevenandseven
Copy link

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。
现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

你好,我发现用bge的工程可以对bce-reranker进行微调,你有测试过吗?但是我微调之后计算得分非常低,已知是e的-2左右的值的,不知道是什么原因?

好像bge的一些配置和bce是不一样的,我建议你先检查一下你的配置是否正确,但是我没有用bge的工程跑过,所以我也不确定。然后我已经找到了微调的一个项目,你也可以参考一下:https://github.com/NLPJCL/RAG-Retrieval

好的,感谢您的回复。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants