关于再训练 #1

shawroad · 2021-08-04T10:54:05Z

直接使用权重，效果已经很好了。但是在专有领域，为了进一步提升效果，进行了再训练。训练的loss为: 两个句子最终的编码向量计算cos，然后再进行回归计算(和原始的标签做MSELoss)，不知道和你的预训练是否有gap? 望指点!!!

renmada · 2021-08-06T06:34:27Z

loss具体的实现可以看一下官方的源码， https://github.com/UKPLab/sentence-transformers/tree/master/examples/training/sts，
建议也可以试试simcse，可能会比这个效果好

shawroad · 2021-08-06T06:42:01Z

我试过了。发现这个权重效果特别好。比simcse的有监督在我的任务上还高3%个点(准确率)。

Jh10555 · 2022-04-14T12:38:10Z

我试过了。发现这个权重效果特别好。比simcse的有监督在我的任务上还高3%个点(准确率)。

人工构造了三元组数据吗

shawroad · 2022-04-14T12:40:57Z

没有直接用全部的正样本训练的。

Jh10555 · 2022-04-14T12:50:50Z

没有直接用全部的正样本训练的。

simcse的有监督是三元组输入呀

shawroad · 2022-04-14T13:01:09Z

我知道但是我输入正样本损失相当于采样无监督的损失。

shawroad · 2022-04-14T13:02:17Z

Jh10555 · 2022-04-18T11:29:12Z

https://github.com/shawroad/Semantic-Textual-Similarity-Pytorch 可以参考我的这个仓库

好的感谢

Provide feedback