自然场景文本检测与端到端识别：深度学习方法

时间：2023-09-15 12:36:03 来源：网友投稿

周燕，韦勤彬，廖俊玮，曾凡智，冯文婕，刘翔宇，周月霞

佛山科学技术学院计算机系，广东佛山528000

文本作为人类智慧的结晶，在文化的传承中起着不可或缺的作用。文本的出现打破了有声语言在时间和空间上的局限性，为人类文明的传播提供了更有力的载体。随着信息技术的飞速发展，文本的呈现方式早已不局限于纸质资料，大量的文本以文档、图像或视频数据的方式被保存下来。因此，如何利用计算机技术对图像或视频中的文本进行检测与端到端识别变得尤为重要。自然场景文本的检测与端到端识别具有广泛的应用，一方面能够提高各类应用场景的效率，如车牌识别与定位[1]、文本类验证码识别[2]或手写体识别[3]等；
另一方面在智能交通系统[4-6]、图像与视频检索[7]、视障人导盲[8-9]以及便携式视觉系统[10-12]等计算机视觉的实际应用场景提供额外信息。因此，自然场景文本的检测与端到端识别逐渐成为计算机视觉的研究热点之一，引起了研究者们的广泛关注。

目前，用于文本文档的光学字符识别（optical character recognition，OCR）系统已经非常成熟。不同于传统的、规则的图像文本，自然场景文本通常会由于表现形式丰富、图像背景复杂、文本发生透视或弯曲、图像失真等干扰因素的影响，使其检测与端到端识别的难度远远大于传统的、规则的图像文本，主要体现在以下方面：

（1）自然场景的文本检测。其任务是准确定位自然场景图像中的文本，该方面面临三大挑战：①如何在现有传统的图像文本检测技术基础上再进一步扩展，以检测不同形状的文本；
②如何有效地解决长文本、密集文本与大间距文本的问题；
③如何提升准确率与召回率等性能指标。

（2）自然场景的端到端识别。这方面的任务是将检测与识别组合成一个完整的过程，即在检测出图像中的文本区域后并识别其文本内容，其面临的挑战主要体现在：①如何高效地连接检测与识别两个分支，提高模型效率；
②如何平衡文本检测与识别两者在学习难度和收敛速度上的显著差异。

随着深度学习技术的快速发展，针对上述各类任务所面临的问题，许多研究者陆续提出了相应的解决方案，推动了自然场景文本相关技术领域的发展。虽然已有相关综述对自然场景文本检测的方法做了较为系统的阐述和总结，但多数未对该领域涉及的端到端识别方向进行讨论分析，总体上对未来发展趋势的展望也不够全面，如文献[13-15]，因此本文的后续内容是对近年来基于深度学习的自然场景文本检测及端到端识别算法进行了总结归纳；
整理了一些常用的数据集，同时对各类算法的性能进行对比和分析；
最后讨论了自然场景文本检测与端到端识别的主流研究方向，并对未来发展趋势进行了展望。

近年来，在基于深度学习的自然场景文本检测方法中，主要的思路是从回归区域候选框和分类图像像素点的角度出发来检测自然场景文本。在文献[13-15]中，大体上也是从这两方面来进行自然场景文本检测方法的分类，主要分为基于回归的方法和基于分割的方法。而在这些参考文献中，文献[15]对于自然场景文本检测方法的分类更为细致、合理，能够更好地分析和总结现有的自然场景文本检测方法。因此，本文主要参考文献[15]，将自然场景文本检测方法的分类思路划分为基于区域候选的自然场景文本检测方法和基于语义分割的自然场景文本检测方法。

1.1 基于区域候选的自然场景文本检测方法

该类算法一般基于二维目标检测原理，把文本检测作为特殊目标进行。首先，将图像输入到卷积神经网络（convolutional neural network，CNN）后，进行特征提取得到各类特征图。其次，在特征图上应用经典的二维目标检测算法生成候选框，计算候选框与真实标签框的交并比（intersection of union，IOU）来滤除冗余框。最后，经过其他后处理步骤，如非极大值抑制（non-maximum suppression，NMS）、边框回归等，来得到文本目标框。经典的二维目标检测候选框生成算法主要包括：基于区域的卷积神经网络（region-based convolutional neural network，RCNN）[16]的选择性搜索（selective search，SS）算法、快速基于区域的卷积神经网络（faster region based convolutional neural network，Faster R-CNN）[17]的区域候选网络（region proposal network，RPN）或者其他自设多种不同尺寸的候选框生成方式等。根据文本检测过程中区域候选框所回归的区域对象不同，参考文献[15]将该类算法分为基于文本区域候选的方法和基于文本组件候选的方法。

1.1.1 基于文本区域候选的方法

基于文本区域候选的方法主要是指在特征图上应用二维目标检测算法直接生成候选框后，接着引入感兴趣区域（region of interest，RoI）层将生成的候选框进行统一表示，再将固定尺寸大小的特征输入到CNN 中进行文本候选区域的筛选。在本小节中，首先介绍了改进的二维目标检测算法在自然场景图像中规则文本的应用；
其次介绍了具有极端横纵比特点的文本的检测难点；
最后列举了针对该检测难点而展开的相关研究工作。

得益于Faster R-CNN[17]中关于RPN 生成候选框方式的启发，Zhong等[18]提出一个基于感知模块的区域候选网络来代替传统的候选框提取算法，大幅度减少了候选框数量，提升了检测效率。而这种方法的局限性在于只能处理水平方向的规则文本，难以检测具有角度信息的倾斜文本。为此，Jiang等[19]在Faster R-CNN[17]的基础上提出了R2CNN网络，该网络在分类优化后的区域候选框上预测具有不同池化尺寸的倾斜面积边界框，接着采用倾斜非最大值抑制法对候选检测结果进行后处理，从而能够检测倾斜文本。Liu等[20]提出了深度匹配先验网络（deep matching prior network，DMPNet），通过引入坐标顺序协议来确定框点顺序，以此解决文本在不同倾斜程度时框点坐标变化的问题，从而达到检测倾斜文本的效果。但其缺点在于框点的后处理计算复杂，成本较高。而针对检测倾斜文本后处理步骤繁琐、计算成本高的问题，2018 年Ma等[21]则从网络生成候选框入手，提出了旋转区域候选网络（rotation region proposal network，RRPN），并以此生成具有角度信息的倾斜候选框，有效地降低了模型计算复杂度，且取得了不错的性能。

文本检测的难点之一在于文本具有极端横纵比的特点，因此网络最终提取的特征图通常会存在感受野不足的情况，从而导致文本检测不全。为此，2017 年Liao等[22]提出了TextBoxes 网络，该网络主要是对二维目标检测SSD（single shot multibox detector）[23]算法进行改进，将其网络中的全连接层替换为卷积层，并且采用长条形卷积核代替方形卷积核，使感受野更符合文本的形状，同时预设了6 种不同横纵比的候选框来检测不同尺寸的文本，对水平文本的检测取得了不错的性能。作者后续在原有基础上进行改进，提出了TextBoxes++[24]网络，该网络主要是增加对角度的学习，使其能够检测多方向文本。Lin等[25]则将预测不全的文本框概括为因感受野不足而产生子文本的问题，因此提出了一个协同控制（contrastive relation，CORE）模块。首先，建模多个文本实例的全文本和子文本之间的关系；
其次，采用实例级的子文本区分的对比方式进一步增强关系推理，有力地解决了这一难点。

1.1.2 基于文本组件候选的方法

基于文本组件候选的方法主要是将文本区域看作由字符或文本行部分区域所构成的多个组件进行拼接而成，而边框回归的对象也将是这些组件，最后经过顶点线性拟合、文本行构建等方法得到文本检测框。在本小节中，针对回归完整文本行的检测方法所存在的不足，首先介绍了回归文本组件序列的相关研究工作；
其次介绍了回归文本组件序列的检测方法的不足；
最后列举了从字符角度出发的相关研究工作。

2016 年，Tian等[26]首次采用回归文本组件序列的方式来构建文本区域，同时引入循环神经网络（recurrent neural network，RNN）来更好地学习序列之间的关系，但其缺点在于网络收敛速度慢，且只能检测水平文本。为了能够检测多方向文本，Shi等[27]在二维目标检测SSD[23]算法的基础上提出了SegLink 模型。如图1 所示，该模型通过利用层内连接检测模块判断区域邻居像素点是否需要相连来解决文本字符的高度问题，利用跨层连接检测模块来解决同一文本在不同层会被检测到所产生的冗余问题，从而能有效地检测多方向文本。然而在检测密集或间距很大的文本行时，该模型的性能效果不佳。Tang等[28]则在Seg-Link[27]的基础上提出了SegLink++模型，该模型对文本组件的预测方式进行改进，通过学习文本片段之间的吸引与互斥系数来防止相邻文本之间的粘连问题，一定程度上提升检测密集文本的性能。然而，上述方法还未能更有效地获取文本组件之间丰富的关联关系，因此Zhang等[29]提出了一个统一的深度关系推理图网络。首先，采用文本候选网络得到文本组件的几何属性；
其次，利用图网络对其进行分组；
最后，根据局部图来生成文本检测框，在很大程度上增强了以文本组件回归文本区域的能力。

图1 SegLink 模型Fig.1 Model of SegLink

然而，利用回归文本组件序列的方式来构建文本区域的操作可扩展性较差，检测速度上也有待提高。不少研究者便从字符的角度出发来检测文本。Li等[30]提出了CENet 网络，该网络利用嵌入向量来学习字符间的关系，并将复杂的后处理过程转化为嵌入字符空间中简单的距离阈值步骤，从而更容易实现对字符的分组、合并，但其局限性在于单个字符级注释的缺乏会导致网络难以收敛而性能不佳。为此，Baek等[31]开始使用弱监督学习框架来扩增字符训练数据，从而提升网络泛化能力，借此提出了一个CRAFT 框架来预测字符区域和字符之间的关联。相较之前的方法而言，CRAFT 框架的性能效果和检测效率得到明显提升。

1.2 基于语义分割的自然场景文本检测方法

基于语义分割的自然场景文本检测方法思维是从经典语义分割算法而来，通过全卷积神经网络（fully convolution networks，FCN）[32]预测图像中的每个像素点是否属于文本区域，再决定是否将对应的像素点聚合到同一文本实例中，进而生成目标检测框。根据采用像素点预测生成文本框方式的不同，参考文献[15]将该类算法分为3 种：基于直接边框回归的方法、基于分类预测的方法与基于边界特征检测的方法。

1.2.1 基于直接边框回归的方法

传统的图像语义分割是通过多层CNN 对图像进行特征提取，然后根据特征图来预测目标分割结果。基于直接边框回归的方法思路与此类似，但其直接回归的是所属框的参数信息，如文本框各点坐标、方向角度或其他表征参数。在本小节中，首先简要介绍了较为经典的检测方法；
其次针对文本具有极端横纵比的特点来展开相关工作的叙述；
最后阐明了迭代优化文本框特征的检测方法的优势。

2017 年，Zhou等[33]提出了一个两阶段文本检测模型EAST（efficient and accurate scene text detector），该模型主要是采用FCN[32]来直接预测每个像素点属于前景或后景，并预测其对应文本实例的得分图和边界坐标，进而生成文本框。He等[34]验证了间接回归方法的缺陷和直接回归方法的潜在优越性，因而设计网络直接学习文本框顶点相对于中心点的偏移量，取得了较高的准确率和召回率。对于任意形状文本的检测问题，Long等[35]提出了TextSnake 方法，该方法的主要思想是采用一连串具有圆心、半径和角度等几何信息的圆环来表达文本区域，再结合特征图得到其骨架线，最后得到文本检测框。

在文本检测中，如何检测具有极端横纵比特点的文本是一个难以解决的问题，主要取决于预设框的尺寸以及现有文本框回归方法的局限性，通常会出现文本检测不全、碎片化等问题。为此，2019 年Wang等[36]提出了SAST（single shot arbitrarily-shaped text detector）方法，该方法主要是结合高层级与低层级的语义信息，以此将具有相同特征的、破碎分离的像素点归为相同文本实例，经过文本边框重构后得到最终文本框，但由于小文本中像素点较密集，该方法对于小文本的检测效果较差，主要依赖复杂的后处理算法进行像素点归类。而其他研究者则认为后处理算法过于复杂容易对网络计算造成负担，因而期望从其他角度着手解决如何检测长文本的问题。Zhong等[37]认为是预设框感受野受限的问题，进而舍弃了锚框的方式，提出了一个无锚框区域候选网络（anchor-free region proposal network，AF-RPN），该网络直接预测特定特征图上像素点映射回原始图中点到对应框顶点的偏移量，从而实现以无锚框方式直接生成高质量的候选框。然而，舍弃锚框的方式固然比较容易，也不受感受野的限制，但网络的召回率会相对较低。为此，Zhang等[38]提出了LOMO（look more than once）框架，该框架采用一个迭代优化模块（iterative refinement module，IRM）来对直接回归器（direct regressor，DR）产生的检测框内的特征进行迭代优化，逐渐感知到整个长文本，进而重建出更加精准的文本框，同时网络的召回率也有所提高。而在迭代优化文本框特征的思想上，He等[39]提出了一个文本特征对齐模块（text feature alignment module，TFAM）来动态调整预测层的特征感受野，并引入一个位置感知非极大抑制（position-aware non-maximum suppression，PA-NMS）模块来有选择性地定位可靠检测框。该方法不仅能够提高文本的检测精度，还能保证较快的检测速度。

1.2.2 基于分类预测的方法

基于分类预测的方法主要是把文本检测任务看作像素分类任务，利用图像的全局特征来预测像素分类图，相较于利用边框回归任务更加容易学习。在本小节中，首先介绍了纯分割检测方法的思路及不足；
其次主要围绕自然场景图像中紧密相邻文本的检测难点及后续的相关研究工作；
最后介绍了较为经典且有效的方法及其改进工作。

受到SegLink[27]模型中将同层点邻域与跨层点连接正负性方式的启发，Deng等[40]首次将回归任务转化为分类任务，并提出了PixelLink 模型。该模型以纯分割的思路来对多层特征图上的像素点标定正负，有效地降低网络训练难度，提升了检测速度。但这种方法对于紧密相邻文本的检测则像素点分类效果不佳，文本预测框通常会出现其他文本实例的情况。针对这种现象，Li等[41]鉴于高维度特征图中不同文本实例边缘像素能够明显区分的思路，提出了渐进式尺度扩展算法来根据网络深度依次扩展文本核，然而其网络结构繁琐。因此，Wang等[42]提出了可学习的像素聚合（pixel aggregation network，PAN）方法，通过计算同一文本实例中像素与核之间的距离，使用预测出的相似度向量来引导文本像素去纠正核参数，以此将文本区域中的像素合并到核中，从而重建出完整的文本实例。然而，这类方法中复杂的聚合过程计算量较大，同时对于密集相邻文本或不明确文本边界的鲁棒性也相对较差。为此，Zhang等[43]首次引入了动态核卷积策略，进而提出了一个核候选网络（kernel proposal network，KPN），该网络根据嵌入特征图的关键位置信息，利用预测的高斯中心图来提取多个核候选框，并且设计了一种正交学习损失（orthogonal learning loss，OLL）来加强核候选框之间的独立性，从而有效地解决密集相邻文本实例的粘连问题。

采用分割网络来进行文本检测任务，通常需要将预测的概率图转化为二值图，以此更有效地进行网络训练，节约计算成本。然而这个操作是不可微的，需要人为地进行相应的后处理操作，这严重影响了模型的收敛效率和网络的性能。为此，Liao等[44]引入了一个阈值图分支，并提出了一个可微二值化（differentiable binarization，DB）模块，将概率图与阈值图两个分支结合，通过DB 模块生成近似二值图，网络结构如图2 所示。DB 模块的引入使网络能够进行端到端的训练，提升检测速度。作者后续又在原有模型基础上提出了DBNet++[45]模型，该模型添加了自适应尺度融合（adaptive scale fusion，ASF）模块，利用通道与空间注意力机制来增强多尺度特征，显著地提高了网络性能，但两者的不足之处都在于难以检测重叠文本。

图2 DBNet网络Fig.2 Network of DBNet

1.2.3 基于边界特征检测的方法

基于边界特征检测的方法不仅可以利用图像中不同文本实例的中心区域与边界的关系特征来区分不同的文本实例，也可以对文本边框四个角点进行划分，接着采用重采样等策略得到轮廓区域，再根据轮廓中点的关系进行文本检测模型的训练。在本小节中，首先列举了较为经典的检测方法；
其次针对图像空间域中文本与背景之间的关系而展开相关的研究工作；
最后介绍了在傅里叶域和频域上拟合高度弯曲文本的相关研究工作。

2019 年，Xu等[46]提出了二维向量场的概念，以其长度表达像素点属于文本的概率，以其方向表达像素点在文本实例中的位置，在自然场景文本检测任务上取得了不错的效果。Zhu等[47]则提出了TextMountain 模型，该模型主要是将文本中心到边界的区域看作概率图，并且概率从中心向边界逐渐递减，概率上升方向指向文本实例，使文本分组和文本框形成更加容易。然而，上述方法在检测弯曲文本或任意形状文本时，常常出现文本框定位错误的问题。因此，Xue等[48]提出了一个多尺度形状回归网络（multi-scale shape regression network，MSR），通过网络能够预测出文本的中心区域及其到最近边界的横向和纵向距离，结合这些信息后得到一组密集边框点，连接后得到文本边框，有效地避免了文本框错误定位。

利用像素点级别的预测方式来进行文本检测任务时，通常会对图像的背景噪声相当敏感，后处理相对复杂且成本高。基于此，不少研究者便采用文本框层级的预测代替像素点层级的预测，以减少网络计算负担和背景噪声的影响。Dai等[49]提出了渐进式轮廓回归（progressive contour regression，PCR）方法，该方法以初始水平框经过多次演变后生成任意形状的文本框，同时建立了一种可靠的轮廓定位机制来重新定位文本轮廓，在保证检测效率的同时加强文本定位的准确性。Zhang等[50]提出了一个新型自适应边界候选网络，该网络分为两个阶段：第一阶段，采用边界候选模型，利用共享特征分类文本像素，生成分类图、距离场和方向场，进而产生粗边界候选框；
第二阶段，采用自适应边界变形模型，其在先验信息指导下对边界进行迭代变形，以此获得更精确的文本边界，进而提升了检测效果。作者后续又对原有的自适应边界变形模型进行改进，转而采用边界Transformer 模块[51]来学习特征，使采样边界点序列和上下文信息进一步被充分利用和挖掘，从而大幅度地提升了网络的准确率和召回率。然而，上述方法中单纯地预测文本框的计算成本也相对较高，因此Tang等[52]滤除了预测文本框中过多的背景像素点，只在多尺度特征图上分别选取与前景文本高度相关的特征点序列，并利用Transformer 模块来建模序列之间的关系，以此有效地将其划分为多个特征组，进而重建出文本框。该方法有效地降低了计算成本，且在常用数据集上取得了不错的性能指标。

采样文本边界控制点的思路在图像空间域上进行文本检测任务，往往难以捕捉高度弯曲的文本细节，而回归文本区域掩膜的方法一般也比较复杂，计算成本较高。因此，不少学者从其他域上展开研究。Zhu等[53]在傅里叶域上做研究，提出了傅里叶空间嵌入（Fourier contour embedding，FCE）方法，模型结构如图3 所示，该网络预测了分类图和文本边框点的傅里叶特征向量，然后在高于阈值的区域上对向量进行傅里叶逆变换（inverse Fourier transformation,IFT）操作，从而在图像空间域中重建出文本轮廓点序列，在弯曲文本数据集的检测任务上效果显著。Su等[54]则首先提出了离散余弦变换（discrete cosine transform，DCT）方法，在频域上将文本实例编码为紧凑向量，接着设计了一个特征感知模块（feature awareness module，FAM）来实现空间和尺度上的感知，有效地学习几何编码，最后还提出了分段非最大值抑制方法来有效地抑制不明确样本，进一步提升了网络性能。

图3 FCENet模型Fig.3 Model of FCENet

自然场景文本相比传统的规则文本，其识别难度主要表现为背景及形状复杂，且场景文本通常会存在透视失真、文本弯曲失真和各种类型的扭曲等情况。现有的场景文本识别方法主要是将场景文本识别任务视为视觉识别任务，并且取得了非常好的性能效果。Fang等[55]提出了一种具有自主性、双向性与迭代性的场景文本识别网络。首先，引入了视觉模型和语言模型，并在两者之间阻断梯度流，以实现语言的显式建模；
其次，提出了一种基于双向特征表示的双向填充网络语言模型来对两者进行融合；
最后，提出了一种迭代修正的执行方式来有效地缓解噪声输入的影响。He等[56]认为大多数方法忽略了全局文本表示，进而设计了一个图卷积网络的文本推理模型GTR（graph convolutional network for textual reasoning），来细化空间上下文的粗文本序列预测，同时采用了一种动态融合策略来产生一致的语言视觉表征和高质量的联合预测，最后放在一个统一的分割基线框架S-GTR（segmentation baseline with GTR）中，为场景文本的识别任务提供了新的技术。Chu等[57]首先提出了一个迭代视觉建模模块IterVM，从输入的场景文本图像中反复提取视觉特征，以增强多层次特征；
其次将其与迭代语言建模模块结合，提出了场景文本识别器IterNet，显著地提高了低质量场景文本图像的识别精度。受到视觉Transformer 技术的启发，Du等[58]则提出了一个在补丁式图像标记化框架内进行场景文本识别的单一视觉模型SVTR（scene text recognition with a single visual model），采用补丁式图像标记化和自注意法来捕获二维补丁之间的识别线索。该模型构建了四种具有不同容量的架构变体，并在英汉场景文本识别任务中取得了非常优秀的性能，运行速度快，模型也较小。

然而，在自然场景文本检测与识别领域中，如何深入挖掘文本检测与识别任务之间的内在联系，是研究者们所重点关注的问题。目前大部分研究人员将自然场景文本检测与识别分割为两个独立的任务，即首先利用检测网络得到图像中的文本框，再将根据文本框得到剪裁的文本实例图像输入到文本识别网络识别文本内容，但很少有方法探讨这两个任务之间的互补性。因此，将这些独立的方法组合成一个场景文本检测与识别系统会增加计算量，而端到端识别算法可以在一个算法中完成文本检测和文本识别，其基本思想是设计一个同时具有检测和识别模块的模型，共享其中两者的CNN 特征，并联合训练。由于一个算法即可完成文字识别，端到端模型更小，速度更快。本章首先介绍了由传统自然场景文本检测方法改进的端到端识别方法；
其次介绍了目标检测和实例分割技术在端到端识别方法中的应用；
然后介绍了一些旨在提高检测与识别速度的实时端到端识别方法；
最后列举了一些针对如何解决检测与识别之间存在严重依赖的端到端识别方法。

2018 年，He等[59]在EAST[33]模型基础上提出了一个端到端的文本识别模型，该模型在文本识别模块中增加了注意力对齐学习，通过引入额外的聚焦损失来监督学习，得到更准确的编码字符空间信息，以此提高文本识别准确率。但该方法只能识别水平方向的规则文本，对自然场景文本中存在的弯曲、旋转等不规则文本识别效果较差。为此，Feng等[60]在Text-Snake[35]方法基础上提出了一种新颖的文本识别框架TextDragon，其原理是先检测文本的任意四边形组件，然后通过感兴趣区域滑动操作与CTC（connectionist temporal classification）算法结合进行文本识别。该框架仅使用单词/行级注释进行训练即可以端到端的方式来检测和识别任意形状的文本，且对不规则文本的识别效果也有了一定的提高。Baek等[61]则以CRAFT[31]文本检测框架为基础提出了CRAFTS方法，在检测到不规则文本后对区域特征做薄板样条变换得到矫正后的文本特征，与单字检测结果结合并将其送入识别器进行文本识别，同样取得了较好的识别性能。

也有学者将目标检测和实例分割中常用的算法，如Faster R-CNN[17]和Mask R-CNN[62]运用于端到端识别中，以识别自然场景中的任意形状文本。2018 年，Lyu等[63]开创性地提出了一种能够检测和识别任意形状文本实例的模型Mask TextSpotter，该模型以独特的文本识别方式在不同的数据集上取得了较好的性能，但训练的时候需要依赖于字符级别的标注，因此只能识别英文和数字文本，对于中文这种字符数量很大的文本识别并不合适。作者后续在该工作的基础上提出了Mask TextSpotter V2[64]，在其识别网络中加入了基于注意力机制的序列识别分支，提高了识别性能。2020 年该作者继续沿用Mask TextSpotter V2[64]中检测和识别分支的设计思路，提出了Mask TextSpotter V3[65]，网络结构如图4所示。通过设计一个无锚框的分割区域提取网络（segmentation proposal network，SPN）替代RPN 预测任意形状文本的显著图，进一步提高了网络的性能。得益于Mask TextSpotter V3[65]在端到端识别任务中优越的性能，有学者在此基础上进行了拓展。Huang等[66]在Mask TextSpotter V3[65]基础上加入了语种识别网络，该网络对文本区域所属语种进行识别，并选择对应语种的识别头，从而实现了多语种的检测与识别，其另一改进之处在于能够单独训练网络中的模块，使网络训练更具灵活性。

图4 Mask TextSpotter V3 网络Fig.4 Network of Mask TextSpotter V3

虽然Mask TextSpotter[63-66]系列方法取得了优秀的性能表现，但由于感兴趣区域操作，网络检测速度较慢。而针对如何提高端到端识别速度的问题，Qiao等[67]提出了一个基于掩码注意力引导的端到端识别框架（mask attention guided one-stage scene text spotter，MANGO），通过包含实例级掩码和字符级掩码的位置感知注意力模块，对每个文本实例及其特征生成注意力权重，将图像中的不同文本分配到不同的特征映射通道上，最后使用一个轻量级的序列解码器来生成字符序列。由于该方法不需要RoI 提取操作，网络预测速度更快，且取得了优秀的性能。Wang等[68]提出了一种快速端到端的自然场景文本识别方法（point gathering network，PGNet），其通过字符点聚合的改进CTC 方法来避免RoI和非极大值抑制操作，有效地提高了预测速度，同时提出了基于图的修正模块来进一步提高模型识别性能，识别精度更高。与CRAFTS[61]相比，该方法不需要字符级别的标注，适用性更强。Wang等[69]提出了一种基于文本内核（即中心区域）的任意形状文本的表示方法，可以较好地区分密集相邻文本，且对实时的应用场景非常友好。在此基础上，作者加入了无编码器的轻量级注意力识别头，建立了一个高效的端到端识别框架PAN++[69]。如图5 所示，其可以有效地检测和识别自然场景中任意形状的文本，显著地提升了推理的速度和识别的精度。Liu等[70]则提出了一种基于贝塞尔曲线的实时端到端的自然场景文本识别方法（adaptive Bezier-curve network，ABCNet），该方法用三阶贝塞尔曲线对不规则文本进行建模，设计贝塞尔对齐层来精确提取任意形状文本实例的卷积特征，通过贝塞尔曲线检测方法可以大大减小计算开销，在效率和精度上都具有优势。作者后续在该工作基础上进一步提出了ABCNet V2[71]，设计了一种新的贝塞尔对齐层，考虑了双向多尺度金字塔整体文本特征，对多尺度文本实例的处理更具有通用性，并且识别头采用基于注意力机制的解码器替代ABCNet[70]中基于CTC 损失函数的解码器，在保持高效率的同时实现先进的性能。

图5 PAN++模型Fig.5 Model of PAN++

针对端到端识别网络的训练需要昂贵的空间注释的问题，Kittenplon等[72]提出了TTS（TextTranSpotter）框架。该框架采用完全监督和弱监督相结合的方式训练网络，使模型性能和注释成本之间能够进行权衡。然而，检测与识别两个任务共享相同的CNN 特征会存在两个问题：第一，文本识别的性能高度依赖于文本检测的精度；
第二，连接检测和识别的RoI 裁剪会带来背景噪声，导致信息丢失。因此，不少学者对此展开研究。2022 年，Wu等[73]提出了一个单镜头自依赖的场景文本定位器（single shot self-reliant scene text spotter，SRSTS），其通过采样共享特征图上的正锚点来桥接并行的检测和识别两个分支，使识别不再着眼于精确的文本边界，进而减少两者的依赖，有效地降低了检测网络所需的注释成本。Huang等[74]以SwinTransformer 为特征提取网络，提出了一个端到端的场景文本定位框架SwinTextSpotter，利用以动态头为检测器的Transformer 编码器，将检测与识别之间的桥梁统一为一种新的识别转换机制，并通过识别损失来明确地引导文本定位。其不需要字符级的注释及识别修正模块，因此网络的训练比较容易，但由于识别器难以匹配较大的注意力图，对长且形状任意的文本检测效果不佳。Zhang等[75]则提出了一个文本定位转换器（text spotting transformer，TESTR），采用单编码器和双解码器的方式来联合文本框控制点回归和字符识别，同时设计了一个边界框到多边形框的引导方法，能够有效地处理贝塞尔和多边形注释，但缺点在于无法自适应不同形状文本所需的控制点个数。

3.1 常用公开数据集

在自然场景文本检测与端到端识别领域，常用公开数据集的详细信息如表1 所示。其中ICDAR-2013 和ICDAR2015 是目前用于四边形文本检测与识别的主流数据集，Total-Text 和CTW-1500 则是用于任意形状及曲线文本检测与识别的主流数据集。

3.2 文本检测性能评估

由表1 可知，自然场景文本检测的数据集很多，本节主要在ICDAR2013、ICDAR2015、Total-Text 和CTW-1500 数据集上从召回率（recall）、准确率（precision）和调和平均（F-measure）三方面进行基于深度学习的自然场景文本检测算法的性能评估。其中，ICDAR2013 和ICDAR2015 通常用来做水平方向文本或四边形文本的检测，各类算法的性能评估如表2所示。Total-Text 和CTW-1500 则通常用于任意形状文本和曲线文本的检测，各类算法的性能评估如表3所示。总体来说，基于文本区域候选的方法如CORETEXT[25]在水平与倾斜文本检测上效果较好，可见优化迭代文本框的方法非常有效；
基于文本组件候选的方法如CRAFT[31]、DRR（deep relational reasoning graph network）[29]在水平和弯曲文本上性能表现更优，但其检测速度慢且拓展难度大；
而基于语义分割的方法如KPN（kernel proposal network）[43]、Text-BPN（boundary proposal network for arbitrary shape text detection）[50]、FSG（feature sampling and grouping）[52]在这两类文本上的检测性能较好，并且随着分割技术的发展，具有更广阔的前景，也是目前文本检测的主流方式。

表1 常用数据集Table 1 Common datasets

表2 文本检测方法在ICDAR2013 和ICDAR2015 上的性能对比Table 2 Performance comparison of text detection methods on ICDAR2013 and ICDAR2015

表3 文本检测方法在Total-Text和CTW-1500 上的性能对比Table 3 Performance comparison of text detection methods on Total-Text and CTW-1500

3.3 端到端识别性能评估

端到端识别方法主要在ICDAR2015、Total-Text和CTW-1500 数据集上进行性能评估。性能评估方式主要分为：end-to-end、word spotting、None 和Full。其中，None 和Full 分别代表无词典和全词典下的识别准确率，end-to-end 表示检测并准确识别图像中的文本，word spotting 则表示检测并准确识别词汇表中的单词，词汇表由S、W、G 三类不同的词汇表构成。其中，S（strong）表示由每幅图像包含的所有单词以及从数据集选取的部分单词组成的词汇表（总共100个）；
W（weakly）表示由训练集和测试集所有单词组成的词汇表；
G（generic）表示通用词汇表，其来源于文献[87]的数据集，大约9 万个单词的通用词汇表。对于四边形文本端到端算法主要基于ICDAR2015 数据集进行评估，性能对比如表4 所示。对于不规则文本端到端算法主要在Total-Text 和CTW-1500 数据集进行评估，性能对比如表5 所示。总体来说，目前CRAFTS[61]这类有字符级别监督的端到端识别算法在规则文本与不规则文本上性能表现更佳，但是在大规模数据集进行字符级别的标注工作量是巨大的，这也是该类算法的局限性。虽然近年来端到端识别算法的性能得到了显著提升，但该类算法识别准确性仍远落后于先检测后识别的拼接方式，距离真正应用于实际场景仍存在很大提升空间。

表4 端到端识别方法在ICDAR2015 上的性能对比Table 4 Performance comparison of end-to-end recognition methods on ICDAR2015

表5 端到端识别方法在Total-Text和CTW-1500 上的性能对比Table 5 Performance comparison of end-to-end recognition methods on Total-Text and CTW-1500

4.1 基于区域候选的文本检测方法

基于区域候选的方法主要分为基于文本区域候选的方法和基于文本组件候选的方法，前者几乎依赖于二维目标检测算法，但是解决不了文本具有极端横纵比的特点，后续的改进是在二维目标检测算法基础上进行扩展，将回归目标物体区域转化为回归文本区域，同时预设了多类不同尺寸的边框来解决文本具有极端横纵比的问题，然而在这阶段只是直接回归出整个文本区域边界框。此外，国内外学者和研究机构也将目光放在后者，如将回归的对象区域放在了单个字符或文本行的部分区域，或者充分挖掘字符之间的关系等。为了检测倾斜文本，以往的方法在生成区域候选框时会引入多余的背景噪声造成干扰，导致检测与识别的性能受到很大的影响。为此，还需要加入网络对文本框角度的学习来更好地拟合倾斜文本框。

然而基于区域候选的方法对网络的设计需要足够精巧，对预设框的大小和比例有一定的挑战，主要的因素如下：（1）若网络输出的最后一层特征图的感受野或预设框的尺寸小于文本行的尺寸，将会导致部分文本信息检测不到；
（2）使用RPN 生成的区域候选框在处理密集文本时会引入相邻文本的特征信息；
（3）框的数量过多时会导致文本的检测速度受到影响，数量过少时会导致准确度降低。虽然3.2 节中针对上述问题提出了很多观点，并进行了一系列的实验，但由于文本极端横纵比特点的存在，使得超过预设阈值的检测框数量少，这严重影响了召回率和准确率等性能指标的评估。此外，对于弯曲文本或任意形状文本，预设框数量巨大，模型过于复杂，即单纯的基于区域候选的文本检测方法很难检测这类文本。

4.2 基于语义分割的文本检测方法

随着图像语义分割技术的兴起，凭借其能够准确分割任意形状的物体轮廓的特点，国内外学者和研究机构开始将这类方法引入到文本检测领域。其中利用直接边框回归的方式，区别于区域候选的方法，它不再回归出真实框与预设框的中心点坐标或四个顶点坐标的偏移量，而是回归每个像素点坐标相对于真实框表征参数的偏移量，解决了预设文本框难以选择尺寸大小的问题。虽然这类方法的性能较之前的方法在整体上有所提升，但其需要回归的参数数量过于庞大，导致网络检测的速度较慢。

而对于弯曲或任意形状文本的检测而言，特别是紧密相邻文本的区域检测问题，上述方法仍然不能够解决。为此，基于分类预测的方法被提出：一类方法是先对像素点进行分类，再利用高维特征能够分割出很近的文本的特点，根据之前生成的标签，依次对网络输出进行逐层的像素点合并，生成最终的文本框区域；
另一类方法则是利用像素聚类的方式，通过缩短同一文本实例中文本像素与核之间的距离，使用预测出的相似度向量来引导文本像素去纠正核参数，以此将文本区域中的像素合并到核中，从而重建出完整的文本实例。这类方法解决了之前很多的问题，同时检测速度也很快，是目前的主流方法。当然，还有基于边界特征检测的方法，可以利用中心区域与边界的关系特征来区分不同的文本实例，也可以对文本边框角点进行划分，采样后得到轮廓区域，再根据轮廓中点的关系进行训练。但这类方法的性能主要取决于预处理步骤，对数据集进行处理后，利用网络进行高效、准确的训练，同样取得了不错的性能。

近年来，Transformer 技术在视觉领域有了突破性的进展，凭借其具有快速有效地对文本特征之间的关系进行建模等特点，不少研究者将其与CNN 结合，并应用到自然场景文本检测与端到端识别领域中，如作为特征提取网络主干或分类回归分支，迭代细化文本框，文本特征点关系建模等，取得了非常好的效果，但因其需要训练的网络参数量巨大，所以对设备具有较高的要求，同时落地也相对困难。但可以肯定的是，如何将Transformer 与CNN 之间更好地结合到一起，并应用到该领域中，是广大研究者比较关注的，也是未来的发展趋势。

4.3 端到端识别方法

端到端识别算法的基本思想是设计一个同时具有检测单元和识别模块的模型，共享文本检测与文本识别的特征并联合训练。相对于先检测后识别的两阶段算法，端到端识别算法整体模型更小，速度更快，适用于实时性要求较高的领域。

目前大多数应用研究都是采用文本检测和文本识别级联的方式，在这过程中上一级产生的错误会因为级联而传递积累，这可能导致文本识别产生大量错误预测。而端到端的方式可以防止错误在训练过程中积累，实现特征共享和协同优化，其困难在于如何搭建文本检测与识别之间特征信息共享的桥梁，在训练过程中有效地共享两者特征信息。并且，由于文本检测与识别两者方法的不同，平衡文本检测和识别两者在学习难度和收敛速度上的显著差异对模型性能有重要作用。另一方面，维护一个具有数据和模型依赖关系的文本检测与识别级联管道需要大量的工程工作，而端到端的模型更容易维护和适应新的领域，具有重要的工程价值。

文字作为人类文明的瑰宝，在生活中起着不可或缺的作用，因此自然场景文本检测与端到端识别作为计算机视觉与人工智能领域中一个重要且具有挑战性的问题而受到广泛关注。随着深度学习技术的深入发展，自然场景文本检测与端到端识别领域取得了突破性的进展，但目前的文本检测与端到端识别性能仍存在巨大提升空间。根据已有的研究方法和最新的研究思路，本文对基于深度学习的自然场景文本检测与端到端识别方法存在的待解决的问题与未来研究方向进行展望。

（1）如何提高文本检测与端到端识别模型的泛化能力，适应现实世界复杂多变的场景文本。虽然由当前流行的数据集训练的文本检测与端到端识别算法在几个真实的评估数据集上取得了良好的性能，但它们在一些特殊情况仍存在问题，如文本较长、尺寸较小、字体样式多变和字符背景复杂的文本实例。此外，大多数文本识别算法对环境干扰敏感，难以处理现实世界的复杂性，泛化能力不够。例如，相较于其他数据集，在COCO-Text 这一难度较大的数据集上各类方法测试取得的性能较差，性能存在较大差异。相比之下，人类善于在复杂场景下识别不同风格的文本，这表明目前各类算法的识别水平和泛化能力与人类水平的表现相比还有很大提升空间。因此，除了简单地使用丰富多样的数据作为训练样本外，如何探索文本独特和本质的特征表示，结合视觉级和语义级的特征将是提高文本检测与端到端识别模型泛化能力的关键。

（2）如何提高端到端识别模型的性能。目前，由于端到端识别算法在一个模型里需要同时完成文本检测和识别两大关键任务，网络设计更加复杂，模型训练和优化也更加困难，其准确率仍未达到应用领域的要求，存在巨大的提升空间。因此，如何设计更有效的方法来衔接文本检测和识别之间的特征信息，从而平衡文本检测和识别两者在学习难度和收敛速度上的显著差异，将是提高端到端识别模型的性能的关键。

（3）如何解决训练数据不足的问题。深度学习算法的性能与训练数据密切相关，特别是文本识别算法。目前大多数自然场景文本数据集只包含数千张数据样本，而这对于训练一个准确的文本识别模型来说是远远不够的。而且，手工收集和注释大量的真实数据将涉及巨大的人工和资源开销。目前的解决方案大致分为以下两类：①合成真实有效的数据，与真实数据集相比，在数据合成过程中可以轻松获得词级、字符级和像素级等多级标注信息，用于训练文本识别算法；
②开发有效的文本数据增强方法，扩充数据集规模。此外，采用自监督学习的方法引入大量真实世界采集的无标注数据也是一个很有潜力的发展方向。

（4）如何使文本识别算法适应多种语言。随着日益密切的国际交流，能够适应多语言的文本识别模型是促进各国人民交流和智慧城市发展的关键。目前大多数文本识别模型只能识别一个语言的文本，若场景图片中存在多种语言将难以识别。此外，当前许多文本识别算法只针对拉丁文本，非拉丁语文本的识别还没有得到广泛的研究，例如中文场景文本，中文字符类别更多，与拉丁语文本相比具有独特性。并且，现有的文本识别算法不能很好地推广到不同的语言，因此为特定语言开发与该语言相关的文本识别算法，结合语种识别分类器，自适应地选择对应语种的文本识别模型可能是一个可行的解决方案。

（5）如何提高自然场景文本检测与端到端识别算法在落地应用场景的适应性。虽然当前自然场景文本检测与端到端识别的相关研究取得了巨大进步，在相应数据集取得了较好的性能，但在应用时还需结合其他因素进行适配才能更好地落地。例如，对于日常生活中常见的较为隐私和重要的场景，如身份证和银行卡识别，不仅要保证识别的性能，识别方法的安全性也尤为重要。现实应用场景中的挑战可能会为未来的研究提供新的研究机会，如多语言文本识别、隐私场景的高精度识别、移动设备的快速文本识别等。因此，研究者不应当局限于当前的评价基准，而是更应该考虑应用场景的特点，有针对性地进行优化改进，从而能够更好地实现算法在各个应用领域的落地。

自然场景的文本检测与端到端识别作为近年来计算机视觉的研究热点，在生活中有着广泛的应用，帮助人们更好地感受和理解世界。本文主要归纳总结了近年来基于深度学习技术的自然场景文本检测与端到端识别方法的技术发展路线，对研究者们所提出的思想、方法进行分类，对比了这些方法在主流数据集上的性能，最后针对自然场景文本检测与端到端识别的主流研究方向进行了讨论，并阐述了其待解决问题和发展趋势。

猜你喜欢文本框文本性能巧用文本框实现PPT多图片排版电脑爱好者(2020年22期)2020-11-20PPT文本框的另类应用电脑爱好者(2019年10期)2019-10-30在808DA上文本显示的改善制造技术与机床(2019年10期)2019-10-26提供将近80 Gbps的带宽性能 DisplayPort 2.0正式发布家庭影院技术(2019年8期)2019-08-27基于doc2vec和TF-IDF的相似文本识别电子制作(2018年18期)2018-11-14文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻小学教学参考(2015年20期)2016-01-15Al-Se双元置换的基于LGPS的thio-LISICON的制备与性能表征燕山大学学报(2015年4期)2015-12-25强韧化PBT/PC共混物的制备与性能中国塑料(2015年4期)2015-10-14文本框酷变3D效果电脑爱好者(2015年18期)2015-09-10RDX/POLY(BAMO-AMMO)基发射药的热分解与燃烧性能火炸药学报(2014年1期)2014-03-20

推荐访问:学习方法端到深度

公文范文图文推荐

自然场景文本检测与端到端识别：深度学习方法相关文章

上一篇：观片

下一篇：协同围攻策略改进的灰狼算法及其PID,参数优化