论文解读系列八：文字识别中基于Transformer识别方法之 HGA-STR 简介

对于不规则文本，文本分布在二维空间上，将其转换成一维有一定难度，同时基于RNN的编码解码器无法做到并行，本文直接将2D的特征输入到attention-based 1D序列解码器，解码器采用Transformer中的解码器同样的结构。同时，在编码器部分，提取一个全局语义向量，与解码器的输入embedding向量合并，为解码器提供全局语义信息。该模型结构如图1所示。

图 1. 模型的基本结构

编码器介绍：该模型使用CNN进行特征提取，并保持输出的特征为二维。并使用池化操作得到一维向量，作为全局信息表示。

解码器介绍：编码器主要组件有：masked self-attention用来建模预测结果的依赖性；2Dattention用来连接编码器和解码器；以及一个前馈层。具体实现和Transformer文中的结构相同。同时为了更好的性能作者使用两个方向进行解码，结构如图2所示。

图 2.该方法使用双向解码器

该方法在多个英文基准数据集取得了较好的结果，具体结果可参见论文。在速度上作者和两种基于attention的方法进行对比有一定的优势，如表1所示。

表 1. 速度对比

在作者进行的对比试验中，一个比较有意思的现象是，在编码器里面添加Self-attention模块并不能提升模型性能，在解码器中添加才会对结果有提升，如表2所示。这表明原本的Transformer结构直接应用到文字识别任务上是不可行的，需要做相应的调整。

表 2. Self-attention性能对比

（完）