在纯中文应用场景下的评测指标比较 #14

zhanghx0905 · 2024-01-28T12:14:29Z

你好，我看到你们的工作取得了非常优秀的评测成绩。

我想知道在纯中文RAG评测集中，你们的embedding和reranker组合与其他组合相比怎么样，比如bge-zh和bge-reranker。
在我们目前的落地需求中，文档以中文为主，双语的需求应该会非常少。

shenlei1020 · 2024-01-29T08:38:34Z

zhanghx0905 · 2024-01-29T09:47:57Z

谢谢更新，我还有一个问题。

model_max_length 为什么设置的这么大，不设置成 512 吗？

shenlei1020 · 2024-01-29T10:02:12Z

建议按照这么写，在sentence transformers调用cross encoder时候写指定512。

zhanghx0905 · 2024-01-29T10:03:24Z

建议按照这么写，在sentence transformers调用cross encoder时候写指定512。

谢谢，这个有什么说法吗

Kgoeson · 2024-03-08T02:16:45Z

建议按照这么写，在sentence transformers调用cross encoder时候写指定512。
model_max_length最大可以多少呢？目前文档的需求要求文本块大一点的

Provide feedback