大数据的十个基础认知

2020-10-29 18:23

雷德SAAS/ERP/CRM系统咨询,微信联系真人客服小陈菇凉

官方热线 : 18588558600

 
         大数据已经被国家纳入新基建的范畴,这个概念已经流行了将近十年,但是对于大多数人来说,大数据到底是什么,应该如何理解,不一定有正确的认知。本文用10个点来快速阐述关于大数据的基础认知,希望能帮到您。

 


 
基础认知一:大数据的大,是指海量和多形态
 
         30年前的3寸软盘,容量是1.4M,20年前的CD光盘,容量是700M,15年前的DVD,容量是4.5G,10年前的蓝光双面光盘,容量是50G。通过以上数据,我们可以感受几十年来数据规模的发展。数据体量级别在不断上升,经历了K(千)、M(百万)、G(10亿)、T(千亿)、P(百万亿)的过程,目前1T容量的硬盘价格在200元左右。理论上来说,“海量”的数据规模应该是IT以上,笔者之前经历过的深圳交通局数据仓库项目,数据规模在每天1P以上。
 

 
         数据不止是只有文字和数字的形式,还有图像、音频、视频、地理信息等多种数据形式,各种不同的数据联合起来进行应用,是大数据的一个重要特点。例如,公安部门的数据库里有被通缉的逃犯的个人数据,包括数字和文字的信息,例如身高、年龄、身份证号码、涉嫌案件内容等,也有图片等信息,包括相片、指纹等等。当张学友演唱会的入口,使用了摄像头进行人脸识别的时候,系统就会对入场的几万人的面部相片、视频数据,与逃犯库里的数据进行比对,匹配以后,马上带出该嫌疑人的数字和文字信息,指导公安人员的抓捕。
 


 
基础认知二:数据从来都有,采集和存储的技术革新才有了大数据的新环境
         不是现在才有大数据,这些数据一直都在,例如你的心跳,每分钟的数据,不会因为现在要采集了,心跳的次数才存在,而是不管你是否采集,都一直存在。当你戴上智能手环时候,就会实时的采集每分钟的心跳、每天的行走步数等身体数据,然后通过网络存储在云端的数据库里。在没有这些数据采集设备,没有方便、便宜的存储方式的时候,大数据很难形成。
 



 
基础认知三:数据的采集已经进入传感器的时代,不再仅仅依赖人工
 
         几万年前的结绳记事就是一种数据的记录,采集的方式是人工记录在绳子上。几十年前数据是人工记录在纸张上,后来是人工记录在电脑里,大多数情况下,数据的采集都是人工的录入。但是现在更多的数据采集方式是传感器,自动化的设备采集方式,这也是大数据爆发增长的重要原因。例如以往商品进入仓库,需要人工清点,然后记录数量和商品内容到纸质或者录入电脑里。现在的方式就是通过扫描商品上的电子标签,自动记录有哪些商品已经入库,标签和读取设备的方式就是智能设备的数据采集方式。

 



基础认知四:目前全世界的数据量,一年是之前五千年的规模总和,并且不断在翻番增长
 
         2015年一年,全世界产生的数据总量,是人类过去5000年有文明记载以来的总和。2016年是2015年的3倍,以一种指数级上升的速度,人类的数据采集和存储的数量爆发性的增长。究其原因,根本上是数据的采集终端数量在爆发,智能手机、摄像头、穿戴设备、工业农业科技使用的数据采集终端,数量在不断的爆发增长,数据量自然就在不断翻番了。
 



 
基础认知五:有大数据不NB,大数据应用才NB
 
         数据获取了,形成了大数据的规模,如果没有利用起来成为某些应用,大数据就无法实现更大的价值。例如通过智能手环,获取了几亿人的身体数据之后,结合更多的医疗健康领域的数据,通过人工智能的计算识别,就可以判断哪些人可能患有某些疾病,需要进行相应的治疗。直到这个应用的阶段,几千年前神医们推崇的“治未病”,才可能成为现实。
 


 
基础认知六:大数据的应用五个步骤,采集、清洗、建模、计算、发布。
 
         采集就是获取数据,就是“巧妇难为无米之炊”的“米”,但是数据可能有重复的,有因为失误出错的,那么就要对这些数据进行“清洗”,去掉“脏”的数据,留下“干净”的数据。然后数据的使用,需要对某个主题进行模型建立,有点类似建立一个公式,希望通过计算获得想要的结果。模型建立了以后,就是将数据“喂”给这个模型,让计算机去计算这个“公式”,大数据动辄以亿为单位的数据量,非常考验计算机的计算能力。最后得出的结果用什么方式发布,发布给谁。例如抓捕那个热爱张学友歌曲的嫌犯粉丝,计算机计算出的结果是某区某位置的某人就是通缉犯,马上就将这个结果发送给现场蹲守的民警,这个就是发布的过程。
 


 

基础认知七:大数据是人工智能的“饲料”,量越多,越智能
 
         在2010年以前,国际上流行的人工智能的主要方向是设计一套应对问题的计算方法,也就是所谓的“算法”,科学家试图利用程序来告诉人工智能,去分辨识别,又或者计算出一个题目的答案。但是几十年过去了,进展缓慢,甚至,你都无法写一个程序,告诉计算机去识别一只“猫”,在人类看来,一只猫无论是缺胳膊少腿,还是说是稀有品种,都可以很快的认出来,这是一只“猫”。但是软件就很难做到,因为识别一只可能有无数变化因素的猫,难度超出了计算机的计算能力。
 

 
         所以从2010年开始,科学家尝试用另外一种方法,就是让一个基础的人工智能程序,去学习,通过不断的调整自己的认知,来获得对各种可能性的判断。还是说认猫,科学家首先人工的给300万张猫的照片打上标签,是猫的就yes,不是猫的就no,然后“喂”给人工智能程序,让它去学习。最后,人工智能程序就可以象人类一样,在几毫秒内识别出“猫”这个物体了。
 

 
         10年过去了,现在百度的人工智能平台已经进化到200张照片就可以识别出物体的能力。例如你戴了安全帽,还是没有戴,或者戴的帽子不是安全帽,200张照片就可以训练出来。那么后面就可以用这个人工智能的程序,去监控工地里是否有人没有戴安全帽,然后识别出是张三李四,进行有效的安全生产管理。
 

 
         这个智能识别的功能是收费的,费用嘛,超出你的想象!300元一个!世界已经变得非常科幻了,你应该醒醒了。


 
基础认知八:只要数据足够多,认知和处理事物的能力就无限接近人脑的水平
 
         人脑对事物的感知,绝大多数是理性的,讲逻辑的。那些感性的,无法描述的思维,并没有占多大的比例。人脑在理性思维的时候,信息量越大,决策的水平越高。类似的,人工智能接收到的数据信息越多,判断和处理事物的能力就越精确,越接近人类大脑的水平。例如战胜人类围棋世界冠军李世石的alpha go,就是在学习了几百万套棋谱之后,学会了如何选择每一步的最优方式,最后赢得了比赛。在这方面,计算机比人脑有无以伦比的优势,那就是不知疲倦的高效学习。据说,在第三局失利之后,alpha go连夜又学习了上百万套的棋谱,第二天棋力大增,顺利赢得了后面的比赛。
 


 
基础认知九:不同领域不同范围的数据联合,会产生巨大的威力
 
         我们国家近几年大力推广大数据的应用,原因之一就是我们在各方面的规模,无论是人口、面积等等,都是海量以上的水平,非常适合大数据的应用(或者说只能依靠大数据应用)。例如这次新冠疫情,交通部门联合通信公司、医疗机构,对感染人群的追踪,行迹的管理等等,都在使用大数据方面取得了非常好的效果。一旦全国各类数据连通了,那么以往需要一个人去判断的事情,就变成了海量信息辅助判断的方式。所以,以前一个柜台的办事人员不敢下结论的事情,在大数据的计算分析后,就变得非常快捷并且有足够的依据进行决策了。这也是为什么如今在民生领域、行政审批、营商环境等等方面,提高效率不再是口号,而是有现实的技术能力作为基础。
 


 
基础认知十:大数据和个人隐私,脱敏就是了
 
         公民的个人信息,例如身份证、电话、身高体重、喜好等等,如果被采集了,进入了大数据的组成里,是否会导致隐私信息的泄露?类似贵阳大数据中心的大数据交易,到底买卖的是什么?其实,经过脱敏的数据,是不会泄露具体个人的数据意思的。例如,某个玩具厂商希望能获得广州市12岁年龄段的儿童的身高数据,那么“卖”给他们的数据可能是“广州市12岁年龄段身高53%在150cm,32%在145cm……”,那么,某个广州12岁儿童张小明,他的身高数据虽然是组成上面这个大数据结果的一员,但是他本人的数据却不会被别人获取到,这就是一种脱敏处理。