一、问题背景
人工智能技术日新月异,各种深度学习框架和算法层出不穷,从模型训练、服务推理到边缘部署,整个人工智能开发流程复杂,加上各阶段不同的学习框架支持,需要算法开发人员能力要求太高,容易遇到以下问题:
- AI项目条块分割较为严重,重复建设现象和供应商众多且相关标准不一,易形成烟囱式架构,即造成信息孤岛;
- 行业客户缺乏高水平AI算法工程师,应用需求落地门槛高,委托开发成本高;
- 模型研发效率低,自动化程度差,研发人员重复搬箱子、造轮子现象严重,综合成本高。
同时由于GPU、NPU等专业计算卡资源稀缺等多种因素,行业用户急需拥有一套标准化、支持异构化资源调度的人工智能平台完成整个任务的调度与模型开发工作。
二、建设方案
2.1 HyperAI平台
人工智能行业如何解决上述问题、如何给用户提供更为便利的服务?中科弘云提出HyperAI平台,预置MindSpore框架和高精度算法,全面适配华为Atlas系列硬件,打造全国产化AI训练、推理、应用全流程一体化解决方案。
HyperAI平台作为一站式Al 开发平台,提供数据预处理及协同标注、自动化模型训练与推理服务及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。
HyperAI平台全面适配华为国产硬件平台,从边缘端Atlas 200DK、推理端Atlas 300I到训练侧Atlas 300T以及专用的Atlas 800全都支持。支持X86和ARM混合集群,帮助客户实现从Nvidia GPU与华为NPU混合架构下的计算服务。
2.2 MindSpore简介
HyperAI平台全面适配国产框架——MindSpore。MindSpore是华为公司推出的新一代深度学习框架,是源于全产业的最佳实践,最佳匹配昇腾处理器算力,支持终端、边缘、云全场景灵活部署,开创全新的Al编程范式,降低Al开发门槛。MindSpore的关键优势如下:
- 全场景协同
全场景自适应部署,跨异构硬件执行,无需模型转换端侧轻量学习,模型“私人订制”。
- 全自动并行
一行代码,串行算法并行化张量自动切分,最大化并行效率。
- 全流程极简
模型开发套件,“即开即用”模型调优套件,“所见即所得”第三方支持套件,“一键式转换”。
MindSpore预置高性能模型,支持在不同的硬件平台上执行高效推理。在此不得不提到几种机器学习模型的格式
(1) ckpt: 采用了Protocol Buffers格式,存储了网络中所有的参数值。一般用于训练任务中断后恢复训练,或训练后的微调(Fine Tune)任务。
(2)Air:全称Ascend Intermediate Representation,是华为定义的针对机器学习所设计的开放式文件格式。它能更好地适应华为Al处理器,一般用于Ascend 310上执行推理任务。
(3)Mindir:全称MindSpore lR,是MindSpore的一种基于图表示的函数式IR,定义了可扩展的图结构以及算子的IR表示。它消除了不同后端的模型差异,一般用于跨硬件平台执行推理任务。
(4) onnx:全称Open Neural Network Exchange,是一种针对机器学习模型的通用表达。一般用于不同框架间的模型迁移或在推理引擎(TensorRT)上使用。
2.3 全场景AI解决方案
众所周知,算力、算法、数据是支撑人工智能发展的三驾马车,任何一个平台都会涉及到这三个方面。
基于MindSpore的HyperAI人工智能云平台HyperAI 拥有Cloud算力自适应,用户不用去关心底层硬件是NVIDIA的GPU还是华为的NPU或者其他第三方,用户只需要去选择需要的算法,这些算法可能是运行在不同的平台之上,HyperAI Cloud会进行一个自动的管控和调度。
在算法方面,HyperAI Cloud提供预置的场景模型和内置模型,以及AutoML自动调优。
同时提供内置模型对数据进行预处理和自标注,降低人工标注量。
有了这三驾马车,构建HyperAI平台,形成中科弘云全场景AI解决方案。首先,建立样本集,数据就是资源,算法再好也没用,进行场景细节,各种数据分门别类。而后,将数据集放入训练平台进行训练生成模型,模型下发至企业内部的推理服务平台HyperRT或者说模型仓库,仓库中包括多种企业所需要的模型。再将模型进行评估,是否满足企业现有需求,评估完成后如果通过则上线。对于已上线的模型,会产生部分数据反馈至数据集,用于加强现有模型能力,“越用越强”。
三、深度学习计算服务平台HyperDL
HyperDL面向计算机视觉、语音、NLP等领域深度学习算法研发需求,提供数据标注、模型开发、镜像管理、模型训练、模型验证等多个功能模块,帮助用户大幅提升AI研发效率,加速AI场景应用创新步伐。分为五个步骤,数据预处理,数据标注,镜像管理,模型训练,模型评估
平台提供系统算法与用户算法功能,系统算法集成了各场景下优秀的算法模型,零代码即可实现模型训练任务;算法支持用户创建开发环境并进行算法调试。
对于模型的评价体系,模型评估可以通过现有数据集对训练出来的模型进行定量化评价,更真实的反应模型效果。
四、深度学习推理服务平台HyperRT
由HyperDL训练完的模型将进入推理服务平台HyperRT,HyperRT提供基础的Al图像应用能力,并预置丰富的Al业务技能,包含人脸识别、安全帽佩戴检测、烟火检测、人数统计等。平台建立了云边协同模式,提供云端与边缘侧协同的智能分析服务。实现全局资源监控、模型推理和服务管理能力。
HyperRT既内置服务模型,又支持自定义集成,拥有高可用、高并发服务等特点,实施监控服务调用次数、服务状态等信息。
五、云边协同
云边协同模块支持对边缘设备的纳管、资源监控、资源调度能力,向边缘设备调度任务,并实时监控任务状态信息。通过云将模型以镜像或者文件的方式下发至边缘设备,对边缘设备模型的升级和维护进行持续性的管控,使得边缘设备成为整个AI架构的一部分,而不是游离在边缘。
六、视频内容智能分析系统HyperCV
训练平台和推理平台都已经搭建完毕,下一步便是实际应用,HyperCV针对边缘计算服务场景,提供预警管理、服务管理、模型管理、设备管理等多个功能模块,支持完成训练的模型推理至边缘设备,发布服务,加速Al场景应用落地。
在云边协同的作用下,无需更换为智能摄像机,使得传统摄像机也可以拥有智能能力, “软件定义摄像机”。
七、总结
中科弘云的HyperAI平台集计算服务平台HyperDL、推理服务平台HyperRT和智能分析系统HyperCV于一体,打造基于MindSpore框架的一站式人工智能应用服务解决方案。值得注意的是,整套解决方案完全可以在华为硬件平台上实现,且与MindSpore进行更好的适配,大幅提高人工智能的研发效率,助力企业高效发展。
附:基于MindSpore 如何实现千亿参数GPT-3自动并行训练 ,点此回看
查看活动:【华为云社区内容共创者火热招募中】第五弹