人工智能时代已然来临,伴随着人工智能在各个场景中的落地应用,算法、算力不再是高壁垒,为了不断提高算法精度,算法所必须的数据需求也空前爆发,一度催生了AI基础数据服务行业的繁荣。
行业繁荣的景象之下,还存在着一些问题,由于AI基础数据服务的数据标注业务相对门槛较低,玩家鱼龙混杂,使行业标准模糊,服务质量参差不齐。目前多以人工标注为主,传统标注工厂在“人工成本”方面的优势正不断被削弱。因此,增强数据处理平台持续学习和自学习能力,利用机器学习辅助人工提升标注维度和精度,同时降低人工成本已经成为产业共识。另外,数据采集层面,针对数据源的版权问题、采集标准问题还没有很好解决;数据库的建设及服务还保持着一定的壁垒,通用场景的AI技术不断成熟,如何建设高精尖数据库在行业当下也需要去解决。
希尔贝壳成立于2017年,深耕场景AI数据服务,做好数据服务的技术创新同时并开始思考数据产业的下一步方向。
疫情肆掠过后,人工智能应用落地速度加快,而这背后,身处AI基础数据行业的希尔贝壳也在加速前行。
用机器辅助做数据标注切入AI基础数据服务行业
希尔贝壳创业初始聚焦语音数据服务,和创始人的背景密切相关。希尔贝壳CEO卜辉从韩国高丽大学AI实验室硕士毕业后,就一直从事智能语音技术及数据库建设方向的工作,对语音数据库以及语音智能产品有着深入的研究。
AI的算法需要大量带标签的数据,数据标注则是由人工为主导,在“有多少人工就有多智能”的产业背景之下,革新技术,行业标准和门槛的提升则显得更为迫切。
在人工智能快速迭代更新的节点,卜辉发现AI技术成本的变化速度惊人且市场竞争激烈,“比如一套通用AI系统相比一年前,价格基本折了三分之一,但是成就技术的数据并没有贬值。相反,数据处理、采集和加工的人力成本越来越高”。
在这样的背景下,智能化辅助标注平台显得尤为重要。这和卜辉最开始切入行业的初衷不谋而合。希尔贝壳的数据标注平台在工作高峰期拥有上万人在并行做数据标注的工作,如何在降低人工成本的情况下保证数据质量,卜辉认为,应当基于一个强大的智能化工作平台,通过完善算法模型和利用大数据分析来提高数据质量的管控和质检,将重复的标注工作做到智能化管理,提高数据标注效率。成熟的算法好比智能车间里的机器人,大数据分析系统好比智慧大脑在24小时做项目管理工作。
对此,希尔贝壳2018年研发并应用了四套智能标注系统来降低数据处理的成本:语音数据质量评测系统、语音自动标注系统、音频检索系统、智能化标注众包大数据分析系统。在数据任务分发、自动纠错、数据质量跟踪上,提高了数据标注的效率,降低了1/3的人工成本,实现从人工到技术,再让技术辅助人工完成高效的标注工作。
但卜辉对数据的思考并不止于此,“让懂技术的人去做数据,可以看到数据完整的生命周期。另外在数据采集方面,要确定版权除了人为的协议,还需要技术的加持,我们已经在开发电子认证、数据加密,既要考虑版权也要重视数据流通的安全。”在卜辉看来,好的数据能够帮助算法更好的去落地。
对此,希尔贝壳还拥有自建数据库的能力,并根据不同应用场景定制优质的数据库,以提高深度学习的算法精度,精准解决产品在场景下的技术痛点。
探索及制作高精尖数据库
自建数据库,是希尔贝壳创立之初就带有的基因,经过4年的探索之后,卜辉越发地重视数据库的业务,高精尖数据库的研发投入也不断扩大。并且在2019年,与西北工业大学音频语音与语言处理研究组联合成立“智能语音与多模态数据实验室” 。
目前,希尔贝壳的客户包括阿里、腾讯、京东、联想、百度等,“大部分客户更多的合作在于希尔贝壳的数据采标方案、数据的质量和专业的服务上。”此外,希尔贝壳持续在数据开源的项目上做投入,目前开源的数据库申请规模已经达到了500+,实现了我们开源数据助力产学研共同发展的目的,在希尔贝壳的品牌建设上也树立了口碑,在业务上也给希尔贝壳开拓了新的方向。而卜辉提到的开源数据项目,就是【AISHELL系列的精标语音数据集】。
响应国家号召,加深【开源】项目建设
今年3月12日,新华社播发 《 中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,其中【开源】首次被明确列入国民经济和社会发展五年规划纲要。从纲要提到的“支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务”,可以看出国家在战略层面对「开源」的肯定和支持。这足以说明开源是大势所趋。
希尔贝壳成立之初就建立了开源社区,开源了178小时的AISHELL-1中文普通话精标语音数据集。同时搭载全球最大开源语音识别系统Kaldi做了一套开源方案,将有研发价值的数据贡献到科研教育机构。
AISHELL-1开源之后,卜辉发现,高校学生在使用这套方案的同时,很多中小型企业也在利用它进行语音识别技术的研发和产品相关研究,但效果就偏弱了一些。
因此,在2018年6月23日Kaldi第三届全国线下技术交流会上,作为联合主办方之一的希尔贝壳再次开源了全球最大的中文开源数据库AISHELL-2,时长1000小时。这个开源项目不只局限于数据,还包括Kaldi配套的recipe应用。同时成立了AISHELL Foundation来共同推进语音数据和技术的不断开源计划。
AISHELL-2由1991名来自中国不同口音区域的发言人参与录制,文本内容主要涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。并经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在98%以上。
AISHELL-2是全球最大的中文语音数据开源项目,也是最成功的。也正是因为这次开源,不仅让希尔贝壳被业界所知晓,更是让让希尔贝壳收获了全球的智能语音研究高校合作资源。 “AISHELL-2的开源项目,确定了数据开源的模式,即算法方案、优质的数据集、实验系统的描述这三个维度来做方案,让开源项目能够惠及更多的开发者。对比CV领域ImageNet这样的开源数据库,我们做的还远远不够,但我们会持续做下去,也希望整个产业有更多的人来贡献。”卜辉强调。
数据库做为数据产品需要经历投入成本、市场认可、数据库质量三个维度考核,这也形成了数据库的建设壁垒。AISHELL-1 & 2中文普通话精标语音数据集的建设与开源也验证了希尔贝壳自建数据库的能力。成熟的算法要解决场景化的匹配调优问题,让AI找到了新的挑战。相对AISHELL-1 & 2 赋能基础的语音应用技术,场景化的数据库建设更为复杂,需要考虑技术的满足指标和真实场景数据的匹配等等。场景数据开源的方案希尔贝壳也陆续公开发布了 HI-MIA,智能家居场景的语音唤醒开源项目;联合昆山杜克大学一起发布的多说话人语音合成项目AISHELL-3。 更是把智能语音技术+数据开源的方案树立起了希尔贝壳自有的能力门槛,前沿技术落地数据先行的理念在希尔贝壳充分得到验证。
今年希尔贝壳会推出AISHELL-4,聚焦会议场景的智能语音技术方案,目前开源项目的论文已经公布,该项目方案也是产学研最全面的会议场景方案,相信会推动智能语音技术在会议场景的研究及落地。
希尔贝壳目前已形成了智能语音技术+数据的矩阵开源方案,覆盖语音识别、声纹识别、语音合成、场景智能语音技术应用方案。
数据服务的创新思考:算法和数据的辩证关系
在不断拓宽业务的深度和广度的同时,卜辉更着重思考业务背后的技术逻辑,如何用技术助力和创新业务。创业期间,卜辉一直在思考数据标注、数据采集、数据库和算法之间的联系。在卜辉看来,数据和算法之间是一个辩证的关系,数据是算法的基础,但开源的算法也为数据质量助力,此外,数据库的建设也需要有前沿算法的意识。“因为数据库是为算法和应用层服务的,在对算法有一定的了解背景下去做数据库,则更为清晰。另外,技术落地数据先行是一个必然的趋势。当技术逐渐成熟后科研人员更聚焦用数据去验证技术。”
在AI基础数据服务行业中,希尔贝壳已经拥有了成熟的两大业务形式,包括数据集产品(自建并开源数据库)和数据需求的定制服务(数据采集/标注)。卜辉说道:“做好场景下的数据采标,垂直在场景建数据库,已经成为希尔贝壳的特色和亮点。在AI新基建的路上,非结构化数据的管理、标注、分析、安全等还有很多问题需要解决,基础数据服务要跟上产业的发展投入研发拓展创新,才能真正做到服务产业服务好产业。”
尽管身处在AI基础数据服务行业,但从希尔贝壳的4年发展路径来看,聚焦场景化数据业务,其对人工智能数据的思考和创新不止于此,这和创始人卜辉的创新思维有很大的联系。卜辉一直强调,创新的力量,“尽管数据服务属于人工智能产业的基础层,越基础越要做到扎实,思考不能局限在这一层,从产业的角度去思考和改变,不断提升我们的业务能力。”
在卜辉看来,希尔贝壳用4年的时间做数据层面的创新只是第一步。谈及未来的规划,卜辉说道:“通过技术引领数据业务的发展,通过数据带动技术产业的成熟,在未来用前沿的数据库去服务开发者和科研人员,降低企业在算法落地层面的成本。还要用更多的开源数据与教育、研发、产品等相结合让技术落地走进更多的场景,为实现人工智能民主化希尔贝壳还需要更努力。”
雷锋网(公众号:雷锋网)雷锋网
雷锋网版权文章,未经授权禁止转载。详情见转载须知。