-
Notifications
You must be signed in to change notification settings - Fork 0
LtA
[[TOC]]
Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition(可学习的文字图像数据增强)
论文作者:
Canjie Luo1, Yuanzhi Zhu1, Lianwen Jin1*, Yongpan Wang2 1:South China University of Technology, 2:Alibaba Group {canjie.luo, zzz.yuanzhi, lianwen.jin}@gmail.com, yongpan@taobao.com
首先图像数据增强目的是为了缓解因训练数据量不足导致学习出来的网络泛化性较差,传统的图像数据增强方案基本可以归类到仿射变换(affaine transformation)中,包括平移、翻转、旋转等。但这类数据增强方案都有一个共同的局限性,就是图像变换的形式是固定的,这就导致了增强后的数据在多样性上会有局限性,所以对于网络训练后的泛化能力的提升会比较有限。特别是在文字图像识别相关任务中,训练图像数据中的文字不是以单个字符的形式出现,而是以字符串的形式(因为识别网络中会有考虑上下文信息的RNN)。这种情况下如果用传统的固定形式的仿射变换如旋转、翻转等,就会导致训练图像中每个字符的变换形式也都相同,而这种增强方式和现实中的各种场景文本(scene text)会有区别,因为实际的场景文本中的各个字符都可能有不同的变化形式(例如手写体、艺术体)。
本篇论文的主要是提出一种可学习的数据增强架构, 下图是本论文的架构:
首先会在文字图像上生成一些基准点,然后增强模块(Learnable Agent)会给出预测的基准点移动方向(移动距离随机生成) 和随机生成的移动方向,再跟据这两组移动后的基准点和原始基准点生成一对形变后的图像,可以认为一张是预测的形变图而另一张是随机的形变图。识别器(recognizer)会给出这两张图像的文字识别难度(难度的衡量指标是edit distance),增强模块会将增大识别难度作为指导方向来更新自己的网络权值,然后将识别难度大的那张图像作为增强后的训练图像给到文字识别网络中去进行训练。
文字图像的增强方式如下图所示:
先将图像划分成N个区域(图中N=3),然后生成2(N+1)个基准点(记为p点)。增强模块会给出预测的移动方向和随机的移动方向(移动距离随机生成),根据此基准点移动到新的位置(记为q点),且移动距离会有限制(如图中R=10表示基准点移动距离不超过10)。论文作者基于移动最小二乘法对输入图像做相似性变换来生成增强后的图像(Scott Schaefer, Travis McPhail, and Joe Warren. Image deformation using Moving Least Squares. In ACM Transactions on Graphics, pages 533–540, July 2006. 2, 3, 4, 6)。具体的图像形变计算公式在论文中有介绍,就不在此赘述了。所以这种图像数据增强方式和其余传统方法的最大区别在于:图像变换的形式是不固定且学习出来的。
训练增强模块的具体算法如下图所示:
其中Agent network的网络结构又如下图中的表格所示,网络输出的结果就是上面算法中的S,只包括了预测的基准点移动方向,移动距离随机生成(作者说如果预测中加上距离的话网络就没法收敛了):
关于代码的具体实现,论文作者目前在github上只给出了默认的随机增强模块,联合训练的部分(Algorithm 1 Joint Learning Scheme)尚未给出:
论文实验采用的文字识别器网络是采用的ResNet+attention decoder(Baoguang Shi, Mingkun Yang, Xinggang Wang, PengyuanLyu, Cong Yao, and Xiang Bai. ASTER: An attentional scene text recognizer with flexible rectification. IEEE Trans.Pattern Anal. Mach. Intell., 41(9):2035–2048, 2019. 1, 2, 3,4, 6, 7, 8),测试所用的衡量指标是字符准确率。实验结果如下图所示:
从结果中可以看出当N=3(图像划分为3个区域,共有8个基准点),R=10(每个基准点的移动范围不超过10个像素)时,训练结果最理想。
1.文字图像数据增强的形变方式不是固定的,意味着相比于传统增强方案的固定变换模式,该方案可以进一步提升增强后的文字图像数据多样性。
2.将数据增强和网络训练这两个独立的过程通过Joint Learning Scheme联系在了一起,意味着文字图像数据增强的形变方式是学习出来的,且会增大文字识别难度。
但是目前由于作者尚未在github中公开Joint Learning Scheme的代码,如果要将该方案应用到实际项目中,则需要根据论文给出的算法流程以及loss函数来复现。对于我们当前的高法文字图像超分/增强的项目,该方案可以用来缓解二值化图片数据量不够的压力,提升训练样本的多样性。