感谢能够开源这样大体量、solid的代码和工作! Q: ctsd在具有ref图的时候FVD始终比DF高一点,但没有ref图的时候就比df低了很多; 造成这种现象的原因是没有深入的训练df吗,ctsd训练中给ref加噪这一思想应该和df同源 这两者本质上训练效果应该不相上下,有试过VP+df吗