HDC.Cloud2021|关于数据的灵魂三问:从哪儿来?到哪儿去?能干什么?你真的懂了吗?

作为科技圈小白,经常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么区分谁有用谁没用?其实数据就在我们身边,每个人都是数据的生产者,从人类文明诞生的那一刻起,数据就伴随我们而生。今天这篇文章,小编就带你查一查数据采集技术的水表。

一、数据从哪儿来

数据是通过采集的方式获得的,但是采集过程并不简单。比如,数据粮食有的是粗粮有的是细粮,能够拿到细粮的概率太低了。为了筛选出真实有效的数据,大家通常的做法就是把粗粮先搞回来再加工,这种情况就导致花大力气搞回来的粮食筛到最后能吃的不到10%。
而且,不是所有的数据都是现成的,有些情况下需要自给自足去种地,从撒子秧苗开始培育自己的数据,至于哪个环节出问题导致数据收成不好那都是靠天吃饭的随机性了。
就算是自己动手丰衣足食也存在秧苗生长不统一的问题,数据有很大的主观性,经常按照自己的想法长,大家都不一样,那口感就不一致了,咱们以为这是一碗大米饭,可能最后出来的是杂豆饭。

二、数据到哪儿去

数据中隐藏着系统或设备运行的规律,也含有突发的状态变更信息,更是潜藏着异常或灾难发生前细微的蛛丝马迹。因此,它的用途非常广泛,传统行业中可以收集生产设备的运行状态数据实现系统的监控和运维工作,信息产业中各种各样的数据是支撑整个产业发展的基石,在未来,人工智能技术大规模应用到各行各业中,更是离不开丰富的数据支撑。
我们既然拿粮食比喻数据,那么数据对于人工智能来说就是吃到肚子里去。数据采集难度系数不低,我们怎么更简便地得到数据,更快地解决人工智能的温饱问题呢?聪明的人类又开始思考如何为自己快速搞到数据。
首先,我们可以自己搞一个高定制化的统一收割系统,用统一的机器做数据粮食收割效率非常高,但这也导致了最终的数据粮食虽然统一,完全没有惊喜,毕竟收割机高度就是这么高,这一茬被收割,一些参差不齐的数据却侥幸继续野蛮生长无法收割。从下面的曲线可以看出:高度定制化可以带来极简的使用体验,但也牺牲了灵活性。
image.png
极简和灵活性如何取舍,还是要落地在场景中。按照2-8原则,80%的数据我们采用高端定制的模式来收割,剩下的20%的数据手动收割,这样我们既能高效的获取整齐划一的粮食也能参杂一些小惊喜,两全其美。
下面我们以网络人工智能业务为例,来看看具体的操作:
网络人工智能业务所使用的80%以上数据,是电信网络的设备数据,所以这一部分可以直接进行网络打通,系统自动完成对接协商、数据采集和标准化处理,使用者可直接获取想要的小区性能指标,进入下一业务环节。
80%的数据采集场景做到了极简,大部分用户的体验得到保障。剩下20%的场景,通过灵活通用的采集能力来解决,用户配置数据源对接参数即可完成数据采集。
还有一些数据并不能通过简单采集获得,比如,无源设备、以及无法产生状态数据的软硬件系统,这就需要一波高端操作——探针自主采集。探针技术本身比较成熟,各行业都有广泛应用,弊端是部署成本高、推广难度大。探针技术也有软硬之分,从名称上就能看出,软探针就是通过独立可执行的软件或可被集成的SDK,在用户授权的情况下,采集网络体验数据。硬探针基本上就是传感器、探测设备等,专业性较强,数据收集准确性高。

三、数据能干什么

数据能干的事情太多了,可以用来分析用户喜好和需求,获得对电信网络真实客观的使用反馈,能够快速得知产品有何不足,对应更新更多的业务模式,能够帮助实现业务改善。好的数据能够帮助企业获得更大对竞争力。但这些数据的背后是人,人的主观性越强,需求就越明确,对产品能力的提升就越有帮助。这些数据就好比是食物中最顶端的高端食材,口感一流品质上乘,但是价格不菲。
如下图所示:
image.png

体验数据不好获得,这些数据基本上要通过问卷调查、实验、端侧体验指标采集等方式获得,不仅成本高而且可获得的数据量也有限。这就好像你是个网店卖家,辛苦做出的产品想要得到五星好评或真实超过10个字的评价感受,需要给客户搞一个好评返现红包。鉴于大家都比较忙,给有字评价的客户依旧不多,那就需要用插补的方式,基于少量真实评价估计一个全部用户的整体感受。
在网络人工智能业务中,我们是如何获得高质量数据的?首先,我们开发了专业的APP,对于用户来说,除了能随时感知自己所处网络的速率和时延,还能针对室内覆盖帮助用户进行信号仿真,实现Wi-Fi的组网规划,真正解决用户的体验问题,除此之外,还具备游戏的代入感和使用体验,能更好的吸引用户,实现网络体验数据的采集。其次,我们还提供了可基于有限采集数据,通过算法进行数据插补的能力,对于采样点少或缺失的区域进行数据补充,该方法引入了地理统计计算的相关算法,在一定采样条件下,插补的误差RMSE小于5,高于物理测量设备的仿真结果。

四、保卫数据安全才是正经事

在开头我们讲过,数据采集有很多难处,在收集、存储、传输上都需要更安全的环境。只有保障数据采集系统安全可靠,才能够有效的保护数据需求者和提供者的权益。网络人工智能在数据采集安全方面也做了不少针对性的措施。比如在数据收集环节的数据脱敏、最小采集范围、密级控制等,避免“顺手牵羊”;在传输过程中也提升了运输大队的军火储备和隐蔽能力,争取让劫匪找不到自己的数据,或者遇到劫道儿的也能从容迎战保卫数据安全;在存储环节的访问控制和权限隔离等技术,避免越权访问和数据泄露问题。
网络人工智能在数据采集安全方面所做的措施如下图所示:
image.png

随着数据安全和隐私保护法规的不断完善,应对数据安全的软、硬件措施也逐步完善,每一个安全措施都是不断完善的长久工程,数据安全没有终点,只有与时俱进不断进步,才能持续满足人们对数据的安全感,从而更充分的发挥数据价值。

五、数据采集技术还在不断成长

数据采集不是一蹴而就的,随着产品或服务的迭代升级,各行业技术的发展,用户需求的提升,政策法规的完善,数据采集技术在安全和隐私保护、数据可获得性、体验等都需要不断演进发展。数据采集不仅是数字化转型的基础,还是人工智能的精神食粮,更需要做到保障数据通道的畅通无阻。
image.png
作为华为ICT基础设施业务面向全球开发者的年度盛会,华为开发者大会2021(Cloud)将于2021年4月24日-26日在深圳举行。本届大会以#每一个开发者都了不起#为主题,将汇聚业界大咖、华为科学家、顶级技术专家、天才少年和众多开发者,共同探讨和分享云、计算、人工智能等最新ICT技术在行业的深度创新和应用。智能时代,每一个开发者都在创造一往无前的奔腾时代。世界有你,了不起!
点击链接,了解大会详细信息。

(完)