We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
大佬你好,感谢你开源的代码。
我在阅读蒸馏部分时有如下疑问,希望能得到你的解答:
1.d_online开与关的区别:是否为T网络是否参与蒸馏时的参数更新。如果是的话,train.py中的t_model似乎没有加入optimizer中,无法进行参数更新;
2.TA策略:没有找到strategy 3 的TA策略部分代码;
3.蒸馏特征:对于T与S网络分别选取的哪些层参与d_feature训练,大佬是否对这方面做过相关实验(是否通常选取骨干网络的较深层特征,特征蒸馏层数的多少与位置是否对结果有相关影响)。
期待大佬和各路大神们回复,一起交流进步!
The text was updated successfully, but these errors were encountered:
Sorry, something went wrong.
No branches or pull requests
大佬你好,感谢你开源的代码。
我在阅读蒸馏部分时有如下疑问,希望能得到你的解答:
1.d_online开与关的区别:是否为T网络是否参与蒸馏时的参数更新。如果是的话,train.py中的t_model似乎没有加入optimizer中,无法进行参数更新;
2.TA策略:没有找到strategy 3 的TA策略部分代码;
3.蒸馏特征:对于T与S网络分别选取的哪些层参与d_feature训练,大佬是否对这方面做过相关实验(是否通常选取骨干网络的较深层特征,特征蒸馏层数的多少与位置是否对结果有相关影响)。
期待大佬和各路大神们回复,一起交流进步!
The text was updated successfully, but these errors were encountered: