技术综述十一：视频OCR基础知识、常见数据集和挑战

视频OCR（Video Optical Character Recognition）用于识别视频中出现的中英文字、繁简体文字、数字等内容，包括字幕、弹幕，以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容，可以识别并提取违规或者关键信息。

随着数字电视的不断推广和普及，对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。

图一：新闻视频

（一）应用范围

视频OCR应用范围广泛，可适用场景如下

图二：敏感信息监控

常用研究方法是基于追踪的方式，相对于图片OCR，视频OCR可以跟踪文字区域位置，提高精确率。

（二）常用数据集

常用数据集如下。

表格一：常见数据集

Minetto数据集是2011年公开的数据集，主要包含5个户外的视频数据，每一帧图片尺寸都是640×480，共3575帧图片，包含28个不同的文本目标，总共出现目标8621次。文本密集的视频平均一帧大约存在15个文本目标，其余视频平均一帧大约存在1-3个目标。

ICDAR 2013 Text in Videos 数据集：公开了28个真实场景的视频数据集以及对应的标注文件，其中13个视频作为训练集，15个视频作为测试集。

ICDAR 2015 Text in Videos 数据集：在ICDAR 2013 的基础上，将训练集扩充为25个视频共13450帧，测试集扩充为24个视频共14374帧，不过新增的视频中只公开了训练集的标注文件，采用官网测评的方式。

（三）挑战

视频OCR挑战很多，包括但并不限于视频层面挑战和文本层面的挑战。

视频层面挑战：

文本层面的挑战（和场景OCR类似）：

图三：常见挑战

至于最新的研究、常用技术等，敬请期待本系列第二篇文章。

（完）