继2017年摘取国际顶级机器翻译评测大赛桂冠之后,搜狗又一次在国际大赛拔得头筹,且是在更为前沿的口语机器翻译领域。
近日,国际顶级口语机器翻译评测大赛(International Workshop on Spoken Language Translation,以下简称IWSLT)落下帷幕。搜狗击败讯飞、阿里巴巴, APPTEK(美国应用科技公司)、AFRL(美国空军研究实验室)以及KIT(德国卡尔斯鲁厄理工学院)等国际国内多个强劲对手,一举夺得了2018年IWSLT大赛Baseline Model(基线模型)赛道冠军。
IWSLT的口语机器翻译指的是从语音信号翻译成目标语言文本,正是搜狗已经落地应用的“AI同传”、“旅行翻译宝”等多款产品的核心技术,并不是我们熟悉的文本到文本的翻译。口语机器翻译领域是一个新兴领域,搜狗则一直走在前沿,此次摘得大赛冠军,也是实力的印证。
11月5日下午,搜狗口语机器翻译团队接受了媒体采访,介绍了IWSLT参赛历程、口语机器翻译的技术进展以及商业落地情况。
口语机器翻译注重细节
据雷锋网了解,IWSLT是国际上最具影响力的口语机器翻译评测比赛,每年举办一次,至今已经是第15届,大赛吸引全世界顶尖机构参加。IWSLT针对语音翻译实际应用面临的难题,每年会设定一些研究任务,并向外界提供公开的数据集合和评测交流机会。
今年的比赛包括两个主要任务,一是英语到德语演讲场景下的语音翻译任务,二是巴斯克语到英语的低资源文本翻译任务。其中,英语到德语演讲场景下的语音翻译任务又分为Baseline Model(基线模型赛道)和End-to-End(端到端赛道)两个赛道。
据介绍,Baseline Model赛道主要评测语音翻译的流水线方案,输入语音先通过语音识别系统得到语音识别结果,之后将结果送入机器翻译系统获得译文。
搜狗、科大讯飞、阿里以及国外数家公司都参加了Baseline Model赛道,在这个赛道中,搜狗取得28.09的BLEU(机器翻译质量评价指标,值越大代表翻译质量越好)成绩,获得第一名,比第二名科大讯飞高出1.6个BLEU。
搜狗语音交互中心负责人陈伟介绍,此次搜狗语音团队派出了语音和机器翻译两个部分的人员合力准备此次比赛,有做声学模型、语音增强、语言模型、机器翻译的人员,还有自然语言处理的人员负责将语音识别模块与机器翻译结合起来。
由于必须使用大赛提供的数据重新训练语音识别模型和机器翻译模型,搜狗语音团队也花费了不少时间和心力。大赛提供的语音数据大概有500小时,搜狗语音团队首先是做了数据增广,调整语速、降噪、增强之类,最终把数据大小提高了3倍。团队用单机多卡机器做语音识别模型训练,训练一个模型需要两到三天的时间。在翻译方面,大赛提供了大概有六千万到七千万序列的双语平行数据,搜狗投入了10-15台八卡机器做模型训练,每训练一个模型需要花4-5天时间,一共做了多轮的模型迭代更新才得到最佳的效果。
虽然是第一次参加一个“命题”的国际赛事,但是搜狗团队早已经驾轻就熟,因为这样的人员配置和技术流程与他们做业务时完全一致。
据雷锋网(公众号:雷锋网)了解,搜狗目前的AI同传、搜狗翻译宝、录音翻译笔等产品都采用了Baseline Model解决方案。搜狗也认为Baseline是业内最主流、效果最好的语音翻译解决方案,市场上商用机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法。
IWSLT大赛此次提供的数据和测试场景很贴合实际应用,其预料包括TED上有英文字幕的德语演讲视频,还有一些有英文字幕的德语电影,这些对话语料都很生活化,会有语气词、停顿、口头禅等常见的语言现象。因此,搜狗在此次IWSLT获得的成绩也印证了搜狗的口语机器翻译技术在应用落地上的领先优势。
在陈伟来看来,目前国内公司在语音识别技术上相差不大,搜狗的语音识别技术处于业内顶尖水平,机器翻译技术则有更大的领先优势。在口语机器翻译这个领域,并不是看语音识别技术或者是机器翻译单方面有多强,而是要看公司是否能处理好细节,将两个环节融合在一起。搜狗在不断的产品落地中已经积累起领先于行业的细节处理能力,能真正做好口语机器翻译和AI同传。
关注前沿与未来
本次IWSLT大赛还增设了End-to-End赛道,其采用基于神经网络的端到端语音翻译解决方案,输入语音后基于深度神经网络模型直接输出译文。目前业内有观点认为End-to-End代表着更前沿的探索,是语音翻译的新思路和新方向。
不过我们发现,End-to-End赛道上第一名的BLEU为19.4,与搜狗在Baseline Model赛道获得的28.09的BLEU相差还很远。
对于这一现象,陈伟告诉雷锋网目前End-to-End需要的语音-文本平行预料难以大规模采集、算法研究也不成熟。虽然目前End-to-End技术在语音识别和机器翻译这种单个环节中取得了不错的效果,但是其应用于口语机器翻译还尚未成熟,距离商业化落地还需要大概5年的时间。
End-to-End赛道尚未成熟,目前还没有出现大家都能认可的技术方案,因此在这个领域夺得第一并不能真正证明实力。当然,陈伟也承认,End-to-End确实是未来的方向之一,搜狗也已经进行了接近半年的尝试。
不断推进商业化落地
近两年,搜狗已经建立起以语言为核心的长远AI战略,核心产品围绕输入法、搜索、同传和翻译。2016年,搜狗将语音识别与机器翻译技术相结合,推出了全球首款商用AI同传系统-搜狗同传,引领了语音翻译技术的普及与应用。
在语音识别领域,与一些老牌厂商比,搜狗是后来者。但是从目前已经取得的成绩来看,搜狗已经抹平了时间上的差距,搜狗是如何做到的呢?
陈伟谈到:从80年代一直到2010年的这二三十年时间,语音识别的流水线很长,老牌语音识别公司在调节参数、模型训练方面有很强的壁垒,然而深度学习技术应用后,相当于推倒重开,在这样的情况下,整个行业后入者有很好的机会,大家可以快速地弯道超车。搜狗在数据和人才储备上都不输给老牌语音公司,搜狗也是一家C端公司,很注重技术与产品的结合,细节可以做到很极致。有数据、有场景,有技术,搜狗就没有理由做不好语音识别和翻译。
在AI同传取得成功之后,搜狗也推出了一系列的智能硬件,例如具备离线翻译和拍照翻译功能的搜狗旅行翻译宝;搜狗录音翻译笔,提供录音转写、对话翻译、同声传译等功能,把AI同传落地到了消费级产品之中,开拓了语音翻译的新航道。搜狗也正在跟VIVO、OPPO等手机厂商合作语音翻译的技术合作,将在线和离线的翻译能力在智能手机上上线。
除此之外,搜狗语音团队也在致力于多模态语音语义技术的探索。在近两天的乌镇世界互联网大会上,搜狗与新华社合作开发的全球第一个“AI合成主播”正式亮相,只用输入新闻文本,AI合成主播就能用和真人一样的声音进行播报,而在播报的过程中唇形、面部表情等也能与真人主播完全吻合,效果惟妙惟肖。
据雷锋网了解,AI合成主播的技术被称为“搜狗分身”,该技术能通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,生成与真人无异的AI分身模型。这项技术让机器首次做到逼真的模拟人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,与真人几乎一致。
从IWSLT大赛到“AI同传”再到“搜狗分身”,我们看到搜狗语音团队在基础技术与应用落地两方面的优异成绩,期待这样一个稳扎稳打的团队带给我们更多的惊喜。
相关文章:
“搜狗分身”技术正式亮相乌镇,携手新华社发布全球首个AI合成主播
搜狗王小川:搜索本身就是以AI为核心 | CCF-GAIR 2018
王小川:搜狗未来将推出颠覆性硬件产品 | CCF-GAIR 2018
雷锋网原创文章,未经授权禁止转载。详情见转载须知。