“视频又卡住了”,“噪音太大,听不清你讲话”,“这画质也太有年代感了.....”
参加视频通话时,你是不是也经常会出现以上状况?
今年疫情突发,上班族都体验了一把在线云办公的快感。
但让人抓狂的是,每当谈到核心业务时,视频通话总会出现卡顿、噪音等意外状况。
最近小编发现一款AI工具,可以一键解决以上所有烦恼。它就是NVIDIA推出的一款Cloud-AI视频流平台——Maxine。
据了解,它可以在视频通话中,提供高清画质、噪音消除、目光校正,以及实时转录、翻译等功能。
更重要的是,它还可以支持电脑、平板、手机等多种类型的设备。
Maxine:高清、流畅无噪音
疫情虽然已经趋于平缓,办公模式也回到了线下,但视频通话也成为了一种常用的办公方式。如NVIDIA加速计算副总裁兼总经理伊恩·巴克(Ian Buck)所说:“视频会议现在已成为了日常生活的一部分,它可帮助数百万人工作,学习,娱乐,甚至就医。”
因此,英伟达推出了这款基于AI的云原生流视频平台Maxine,用于解决当前视频通话存在的最大问题。
对于视频通话来讲,首先要解决的就是画质、噪音以及流畅度等基本问题。从NVIDIA官网了解到,Maxine采用超分辨率(Super-Resolution)技术,可以实时将低分辨率视频转换为高分辨率视频。
如图,使用后的视频像素被提升至720p。另外,AI平台也增加了消除伪影的功能,可以使得画面更清晰。
其次,Maxine平台中的AI模块可以过滤掉常见的背景噪音,如敲击键盘、主机运行的嗡嗡声、家里吸尘器的声音等。
同时,为了更好地呈现通话中的你日通,Maxine还提供了实时翻译、转录字幕的功能。
最重要的是借助其视频压缩技术,可以有效减少数据传输的带宽。据了解,Maxine的可以将其减少到H.264视频压缩标准所需带宽的十分之一,可以及大地增加视频的流畅度。
大量用户同时使用云视频服务时,会对带宽带来很大压力,因此用户经常出现掉线、卡顿等现象。对此,NVIDIA高级产品总监安德鲁·佩奇(Andrew page)称,他们的解决方案是将带宽问题变成计算问题,因为相比于增加带宽,增加计算更为容易。
具体来说,Maxine 采用的AI视频压缩技术的核心在于它不是对整个屏幕的像素进行流式处理,而是分析通话中每个人的面部关键点,然后在另一端的视频中重新设置人脸的动画,如此一来便可以大幅降低的数据的传输量,同时还可以保证视频传输的质量。
“换脸”增强交互体验
不过,以上在NVIDIA看来只是一个视频通话工具的基本功能,而它的目标是打造更强用户体验的AI工具。
采用视频通话,而是不语音通话的一个基本诉求就是有面对面对视的交互感,但通常情况下,为了有更顺畅的交流,我们不得不紧盯着摄像头,而不是屏幕中正在对话的人。
现在Maxine可以缓解这一尴尬,它通过重建视频中的人脸图像,可以来让你看起来正在与对方进行眼神交流。
换句话说,AI通过自动生成一张虚拟人脸来自动调整面部的角度,让视频通话者看起来正自由地看着屏幕。
研究人员介绍称:
“借助计算机视觉技术,我们可以从多个角度定位一个人的头部,增强面对面交流的感觉,这将有助于人们进行更自然的对话。”
同时他也介绍称,这项假脸生成技术采用的正是生成式对抗网络(generative antivative networks,GAN)。
GAN曾被AI教父Yann LeCun称作是“过去10年机器学习中最有趣的想法”,它的原理是让两个神经网络相互竞争,来生成与原始图像高度吻合的虚假图像。风靡一时的DeepFake软件背后原理采用的均是GAN。
研究人员介绍,视频连接后,发送端会传输交互者面部周围的关键点数据,如鼻子、眼睛、嘴巴等,接受端的GAN会用这些点和原始静态图像一起来激活通话屏幕中的虚拟人脸。
另外,在面对面互动体验方面,Maxine还增加了动画头像交互和虚拟助手功能。动画头像交互允许视频通话者根据喜好选择动画虚拟头像 ,这些头像虽不是真实的,但可以通过交互者的声音和情绪基调自动驱动。
而虚拟助手内置了NVIDIA Jarvis对话式AI框架,具有为实时性能而优化的最新模型,可以进行语音识别、语言理解以及语音生成的虚拟助手。比如在视频通话中,交互者可以让虚拟助手来记笔记、设置动作项目以及用类似人类的声音回答问题。
那么,这款集高清、去噪、低延时及强交互体验的视频通话工具,你要来体验一下吗?
参考链接:雷锋网雷锋网(公众号:雷锋网)雷锋网
https://blogs.nvidia.com/blog/2020/10/05/gan-video-conferencing-maxine/
雷锋网原创文章,未经授权禁止转载。详情见转载须知。