论文解读系列七:信息提取论文解读
信息抽取(Information Extraction, IE)领域有两个经典的解决方案,一个是基于规则的正则表达式匹配,另一个是基于学习的BiLSTM+CRF方法。在版式较为固定的情况下,这两种方法都可以取得良好的结果。例如,在ICDAR 2019的发票信息抽取比赛SROIE [1] 中,冠军队伍就是采用了正则表达式,而季军队伍采用的是BiLSTM+CRF方法。但是对于版面复杂、视觉信息丰富(Visually Rich Documents,VRD)的文档,如图1所示,这两种方法都忽略了视觉等关键信息,从而使得IE准确率下降。
图1. VRD文档。
近两年,利用文档中的视觉、上下文等信息增强IE性能逐渐受到学者的重视。下面,我将简要介绍几篇相关文章。
一.Katti, Anoop R., et al. "Chargrid: Towards Understanding 2D Documents." EMNLP, 2018.
这篇文章针对IE任务提出了一个新型的文档表征方法。传统的IE方法将文档表示为文本,而chargrid则保留了原始的图像结构,如下图所示:
图2. Chargrid文档表征方法。
该方法利用字符位置和类别信息(OCR识别结果或者从PDF、HTML文件解析得到),在字符对应的bounding box范围内,填充该字符类别的one-hot编码。因此,最终得到的chargrid表征为,其中H和W分别是图像的高和宽,而是字符的类别数。该表征可以进行下采样以降低后续网络计算量,只要保证最小的bounding box下采样之后至少占1个像素即可。
基于chargrid表征,作者采用了encoder-decoder结构的CNN网络进行关键信息的detection和segmentation,如下图所示:
图3. 基于chargrid进行关键信息的detection和segmentation。
相比于传统的仅基于文本的IE方法,该框架能够同时利用文本信息和文档结构信息,因此在精度上有了较大提升,特别是对于长文本字段,因为encoder-decoder结构能够有效学习文本的上下文信息。具体结果如下:
其中,sequential是将所有文本展开成行,用LSTM进行标签分类。
二.Liu X, Gao F, Zhang Q, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019
如图4所示,这篇文章的亮点在于利用图卷积网络整合文档的文本语义信息和视觉语义信息;这里的视觉语义信息,主要指文档版面以及文本相对位置,而非图像信息。
图4. 利用图卷积网络整合文档的文本和视觉语义信息。
具体的,该论文将每个文本段(token串加上其位置框)视为一个节点,将每两个文本段之间的关系视为一条边,从而构成了一个具有全连接关系的文档图(fully connected document graph)。边的初始特征为:
其实和分别是节点与之间的水平与垂直距离,与分别为节点的宽和高。节点的初始特征是将所有token的Word2Vec向量经过一个单层BiLSTM得到的定长向量。基于节点和边的特征,图卷积网络迭代地进行图卷积操作,整合上下文信息,进行特征的更新,具体公式如下:
节点特征更新:
边特征更新:
论文中使用了一个两层的图卷积网络,即上述特征更新迭代进行了两次。
得到最终的节点特征之后,论文将其与token的Word2Vec向量进行拼接,并输入到BiLSTM-CRF系统中进行信息抽取,如图5所示:
图5. 融合了图嵌入(由图4所示方法获得)的BiLSTM-CRF系统。
通过结合BiLSTM-CRF与图卷积网络,能够更好的整合文本的上下文信息与视觉位置关系信息,提高准确率。在一个发票数据集上的实验结果如下:
其中Baseline I和II是两种不同输入处理方式的BiLSTM-CRF系统。可以看到,加入图卷积网络之后,准确率有了接近两个点的提升。虽然提升并不十分明显,但是其研究思路仍然具有参考价值。
三、Qian Y, Santus E, Jin Z, et al. “GraphIE: A Graph-Based Framework for Information Extraction.” NAACL 2019.
这篇文章与第二篇思路十分接近,都是在BiLSTM-CRF系统中嵌入图卷积模块,如图6所示,以更好的利用文本上下文信息。不同之处在于图卷积操作的实现,此处不再细叙。此外,除了将每个文本段视为一个节点,该论文也探究了将每个token视为一个节点,以处理更细粒度的语义关系。
图6. 融合了图卷积的BiLSTM-CRF系统。
相比于基准BiLSTM-CRF系统,融合了图卷积的BiLSTM-CRF系统对于未见过的文档模板更为鲁棒:
图7. 融合了图卷积的BiLSTM-CRF系统对于未见过的文档模板更为鲁棒。
四、Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of Text and Layout for Document Image Understanding[J]. arXiv preprint arXiv:1912.13318, 2019.
该论文出自微软亚研院,采用了标准Bert网络结构,在大规模文档数据集上进行预训练,得到的LayoutLM模型在各类下游文档分析任务都取得了十分惊艳的结果。实际上,Bert模型本质上就是一个全连接的图网络。与论文二和三对比,我们可以感受到大语料+巨头算力的巨大威力。
图8. LayoutLM模型。
为了利用文档版面信息,LayoutLM引入了2D positional embedding,与标准Bert模型的positional embedding的区别在于,2D positional embedding采用了四个embedding层,对应文本bounding box的四个位置(左上角(x0, y0)与右下角(x1, y1)),以及两个embedding索引表,对应x、y两个方向。在得到LayoutLM embedding之后,可以选择性的加入image embedding,以更好利用视觉信息。
对LayoutLM进行微调,即可完成IE任务。论文中为每个符号预测{B, I, E, S, O}标签,并扫描检测数据集中的每种关键实体。在ICDAR19 SROIE数据集上的结果如下:
图9. SROIE测评排名情况[2] (截至2020年3月)
在当时取得了大幅领先于第二名的SOTA结果。上面的结果并没有采用图像特征;采用了图像特征之后,性能反而下降至94.67%,说明至少在SROIE数据集上,文本信息与文档版面信息已经足够。
五、Zhang P, Xu Y, Cheng Z, et al. TRIE: End-to-End Text Reading and Information Extraction for Document Understanding[J]. arXiv preprint arXiv:2005.13118, 2020.
该论文是第一个将检测、识别、信息抽取整合成一个end-to-end框架的工作,其框架如下:
图10. TRIE: 端到端信息文本阅读与信息抽取框架。
其中,检测部分是FPN+Faster-RCNN,识别部分是attention+LSTM,信息抽取部分是BiLSTM-CRF。通过联合训练,文本阅读与信息抽取能够相互促进,提升准确率。在SROIE数据集上,该方法取得了96.18%的准确率,比LayoutLM还要高出一个点,比仅基于文本的BiLSTM-CRF高出6个点,表明了端到端训练的巨大潜力。值得注意的是,在信息抽取模块,同样也利用了BERT中的multi-head attention进行上下文信息的整合,这也似乎暗示了图网络或注意力机制对于目前高性能IE任务具有不可替代的作用。
[1] Huang, Zheng, et al. "Icdar2019 competition on scanned receipt ocr and information extraction." 2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019.
[2] https://rrc.cvc.uab.es/?ch=13&com=evaluation&task=3