视频OCR(Video Optical Character Recognition)用于识别视频中出现的中英文字、繁简体文字、数字等内容,包括字幕、弹幕,以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容,可以识别并提取违规或者关键信息。
随着数字电视的不断推广和普及,对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。
图一:新闻视频
(一)应用范围
视频OCR应用范围广泛,可适用场景如下
- 视频、舆情监控
- 电视的自动化检测
- 手游截屏文本提取
- 机顶盒自动测试
- 无人机、机器人项目
- …
图二:敏感信息监控
常用研究方法是基于追踪的方式,相对于图片OCR,视频OCR可以跟踪文字区域位置,提高精确率。
(二)常用数据集
常用数据集如下。
Dataset |
Year |
Category |
MoCA |
1998 |
Caption Text |
Merino |
2007 |
Scene Text |
Minetto |
2011 |
Scene Text |
ICDAR-13 |
2013 |
Scene Text |
Merino-Gracia |
2014 |
Scene Text |
ICDAR-15 |
2015 |
Scene Text |
SVT |
2010 |
Scene Text |
表格一:常见数据集
Minetto数据集是2011年公开的数据集,主要包含5个户外的视频数据,每一帧图片尺寸都是640×480,共3575帧图片,包含28个不同的文本目标,总共出现目标8621次。文本密集的视频平均一帧大约存在15个文本目标,其余视频平均一帧大约存在1-3个目标。
ICDAR 2013 Text in Videos 数据集:公开了28个真实场景的视频数据集以及对应的标注文件,其中13个视频作为训练集,15个视频作为测试集。
ICDAR 2015 Text in Videos 数据集:在ICDAR 2013 的基础上,将训练集扩充为25个视频共13450帧,测试集扩充为24个视频共14374帧,不过新增的视频中只公开了训练集的标注文件,采用官网测评的方式。
(三)挑战
视频OCR挑战很多,包括但并不限于视频层面挑战和文本层面的挑战。
视频层面挑战:
- 压缩失真
- 运动模糊,遮挡,光照变化等
- 多个文字目标不断运动变化
- 不断消失和出
文本层面的挑战(和场景OCR类似):
- 文本背景复杂
- 背景与文本相似
- 小尺度文本
- 文本运动复杂
图三:常见挑战
至于最新的研究、常用技术等,敬请期待本系列第二篇文章。