技术综述十一:视频OCR基础知识、常见数据集和挑战

视频OCRVideo Optical Character Recognition)用于识别视频中出现的中英文字、繁简体文字、数字等内容,包括字幕、弹幕,以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容,可以识别并提取违规或者关键信息。

随着数字电视的不断推广和普及,对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。

 

图一:新闻视频

(一)应用范围

视频OCR应用范围广泛,可适用场景如下

  • 视频、舆情监控
  • 电视的自动化检测
  • 手游截屏文本提取
  • 机顶盒自动测试
  • 无人机、机器人项目

 

图二:敏感信息监控

常用研究方法是基于追踪的方式,相对于图片OCR,视频OCR可以跟踪文字区域位置,提高精确率。

  

(二)常用数据集

常用数据集如下。

Dataset

Year

Category

MoCA

1998

Caption Text

Merino

2007

Scene Text

Minetto

2011

Scene Text

ICDAR-13

2013

Scene Text

Merino-Gracia

2014

Scene Text

ICDAR-15

2015

Scene Text

SVT

2010

Scene Text

表格一:常见数据集

Minetto数据集是2011年公开的数据集,主要包含5个户外的视频数据,每一帧图片尺寸都是640×480,共3575帧图片,包含28个不同的文本目标,总共出现目标8621次。文本密集的视频平均一帧大约存在15个文本目标,其余视频平均一帧大约存在1-3个目标。

ICDAR 2013 Text in Videos 数据集:公开了28个真实场景的视频数据集以及对应的标注文件,其中13个视频作为训练集,15个视频作为测试集。

ICDAR 2015 Text in Videos 数据集:在ICDAR 2013 的基础上,将训练集扩充为25个视频共13450帧,测试集扩充为24个视频共14374帧,不过新增的视频中只公开了训练集的标注文件,采用官网测评的方式。


  

 (三)挑战

视频OCR挑战很多,包括但并不限于视频层面挑战和文本层面的挑战。


视频层面挑战:

  • 压缩失真
  • 运动模糊,遮挡,光照变化等
  • 多个文字目标不断运动变化
  • 不断消失和出


文本层面的挑战(和场景OCR类似):

  • 文本背景复杂
  • 背景与文本相似
  • 小尺度文本
  • 文本运动复杂


图三:常见挑战


至于最新的研究、常用技术等,敬请期待本系列第二篇文章。


(完)