BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond
论文链接:https://arxiv.org/abs/2012.02181
在视频超分中由于需要利用额外的时序信息,视频超分往往比图像超分包含更多的模块,这就导致了各式各样的复杂结构。
该文作者对视频超分进行了梳理并重新审查了视频超分的四个基本模块:Propagation
, Alignment
, Aggregation
以及Upsampling
。通过复用现有方案的模块并添加微小改动,作者提出了一种简单方案:BasicVSR,它在推理速度、复原质量方面取得了引人注目的提升。
作者对BasicVSR进行了系统的分析,解释了性能提升的原因所在,同时也讨论了其局限性。在BasicVSR的基础上,作者进一步提出了“信息寄存(information-refile)”与“耦合传播(coupled propagation)”两种机制促进信息集成。所提BasicVSR及其改进IconVSR将视频超分的性能进行了更进一步的提升,可以作为视频超分领域的一个更强的基准。
下图给出了所提方案与其他视频超分方案在性能与推理速度放慢的对比,可以看到BasicVSR与IconVSR遥遥领先。
同时作者对现有各式各样的VSR方案按照各个模块的功能(propagation, alignment, aggregation, upsampling)进行了拆分,相关总结见下表。
- Propagation:在这里特指信息的流动,比如局部信息,单向信息流动,双向信息流动;
- Alignment:在这里特指对齐的类型以及有无;
- Aggregation:在这里指的是对齐特征的集成方式;
- Upsampling:在这里指的是上采样过程所采用的方案,基本都是Pixel-Shuffle。
在上述四个功能单元中,Propagation和Alignment对性能和效率影响最大。双线传播有助于最大化的进行信息汇集,光流方案有助于进行相邻帧特征对齐。通过简单的上述模块组合所得的BasicVSR即取得了超越SOTA的指标与速度(指标提升0.61dB,推理速度快了24倍)。
在BasicVSR的基础上,作者提出了如下两种新颖的扩展得到了IconVSR。
- 信息寄存,它采用了额外的模块提取从稀疏选择帧(比如关键帧)中提取特征,然后插入到主网络用于特征改善。
- 耦合传播,它促进了前向与反向传播分支中的信息交换。
这两个模块不仅可以降低误差累积问题,同时可以获取更完整的时序信息以生成更高质量的特征,进而得到更好的重建结果。得益于上述两种设计,IconVSR以0.31dB指标提升超过了BasicVSR。
上图给出了BasicVSR的架构示意图。BasicVSR采用了双向传播机制、特征层面的光流对齐、concate进行特征集成,pixelshuffle进行上采样。
以BasicVSR作为骨干,作者引入了两种新颖的单元以消除传播过程中的误差累积促进时序信息集成。
- Information-Refil: 不精确的对齐会导致误差累积问题,尤其是该文所采用的长期传播方案。为消除上述问题,作者提出了信息寄存机制,见下图。
它采用了额外的特征提取器提取关键帧与近邻帧的特征,所提取的特征将于对齐特征通过卷积进行融合。该过程描述如下:
其中分别表示特征提取器与卷积。融合后的特征将被融入到后续的残差模块中。
训练数据:REDS和Vimeo90K;测试数据:REDS4、REDSval4、Vid4、UDM10、Vimeo90K-T。数据退化方式BI和BD。
SpyNet用于光流估计,EDVR-M用于特征提取,Adam优化器,Cosine学习率机制,特征提取与光流部分的学习率为,其他部分的学习率为。总计训练300K,特征提取与光流的权值在前5000次冻结。Batch=8,LR的大小为,Cb损失。
下表给出了所提方案与其他视频超分方案在不同退化方式、不同测试集上的指标、推理速度以及参数量的对比。
表中显示出BasicVSR的性能略微弱于IconVSR。但是相较于EDVR,其模型小,推理速度快。是当前实际应用的最优项。
1、作者提出了两个新颖的组件来进一步提高性能。
2、模型的推理速度和参数量都算较优