美国NASA如何能提前预知各种天文奇观?风力发电机和创业者开店如何选址?如何才能准确预测并对气象灾害进行预警?包括在未来的城镇化建设过程中,如何打造智能城市等等。这一系列问题的背后,其实都隐藏着大数据的身影,不仅彰显着大数据的巨大价值,更直观地体现出大数据在各个行业的广阔应用。这些行业应用也都更直白地告诉人们,什么是大数据。
这些现象其实都在说明一个问题:如果你对这些现象感到惊讶,那么你落伍了;如果你对这些现象感到兴奋,那么你看完本文一定大有收获。不过在展开之前,我们首先知道什么是大数据。
根据研究机构Gartner的定义,大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。
通俗地讲,大数据具有4V特点:Volume(数据量大)、Velocity(实时性强)、Variety(种类多样)、Veracity(真实性)。更为重要的是,大数据还具有Value(价值)的特点。我们选取几个最具代表性的故事来说明大数据。
第1、草船借箭:大数据让你“神机妙算”
情节概览:草船借箭,想必读过书的人都知道这一历史典故。它发生在三国时期,由于周瑜长期以来“羡慕嫉妒”诸葛亮的才干,故意刁难并要求诸葛亮在十天内赶造十万支箭。然而,诸葛亮却表示不需要十天的时间,并以下军令状的勇气和自信,承诺在三天内就能提供这十万支箭。后来,当然如诸葛亮所料,轻轻松松地利用“草船”“借”到了曹军的十万多支箭。
总结分析:“草船借箭”体现的是三国时代背景下,诸葛亮的足智多谋。但换在现在来看,“草船借箭”能够付诸实施,很大程度上得益于孔明对气象的准确观察和预测,这种观察预测和当今的天气预报本质上是一回事,只不过孔明加入了对当时所处形势的预判。
“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析。这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。需要注意的是,单纯的概率统计和数据分析,失去众多非结构类型数据支撑的分析、结论都不是“大数据”。
当然,“草船借箭”只能算是大数据的雏形,并不能和当今真正意义上的“大数据”相比,但笔者希望通过这种人尽皆知的历史典故,揭开对“大数据”的更直观、更深刻认识。
第2、智慧城市:智能交通视频监控
情节概览:每次出门,是否总担心路上遇到交通拥堵?每次行车,是否总害怕前方遇上交通事故?这些问题,恐怕当今社会每个人都曾遭遇过。通过现有的IT技术在大数据时代背景下,完全可以打造一座智慧之城。
笔者曾在南京深刻感受到智慧城市视频监控系统给整个城市带来的变革。基于强大的云平台运行智慧交通云系统、云视频监控和智能分析应用,实时采集和处理南京1000个摄像头、每天数百TB的海量交通数据,并对整个南京140万机动车规模的交通数据进行实时查询和分析。
除此之外,云计算平台还可以跟踪车辆的行车记录、统计分析交通拥堵路段。以往需要人工参与并监控的交通拥堵和车祸等信息,现在完全可以交由该平台进行处理,主动分析摄像头搜集的各个路段信息,并分析视频、主动报警、主动通知用户。
总结分析:智慧城市,很大程度上就蕴含了交通作为城市动脉的数据流。通过视频监控,采集各个道路视频摄像头信息,并对比历史记录和实时车流、人流进行分析,可以计算和预测该路段当前、未来的交通情况,也可以动态调整交通状况并实时预警。其数据量之大、结构类型之多、实时性之高,足以体现大数据在智慧城市的应用前景和价值所在。
第3、生态中国:让大数据、云计算监测预警环保
情节概览:中国是一个人口大国,同时也是一个能源大国。其中,山西省更是以盛产煤炭资源而著称的能源大省。在过去的现代化建设中,在开采矿产和煤炭资源过程中,出现了很多破坏生态环境的做法。
然而,得益于物联网技术和IT技术的突破性发展,近年来,在开采矿产资源过程中破坏生态植被、出现生产事故的几率大大减少,相反还出现了可以实时监测并提前告警的智能化解决方案。
笔者去煤炭大省山西太原了解了这一发展动态。目前该省物联网、安全生产和节能环保、能源物流等项目都被整合到—个物联网云平台上,并通过“云端”的方式不断推进。具体来说,“云”负责承载业务并通过资源池化为用户(包括政府、公益部门和企业部门等等)提供接入服务,由嵌入式电路及其之上的智能终端设备组成的“端”,负责采集并实时监测全省各个煤矿(包括瓦斯含量、温度、湿度等数据),从而打造出智能化、自动后的“数字矿山”。除了煤矿物联网之外,还可通过公关物联网、环保物联网等服务平台,对地下管网(“地眼工程”)、污水处理、城市道路提供服务。
总结分析:坦白说,物联网并不是大数据,但物联网本身具有大数据特征,而且在发展的过程中也需要应对大数据这种挑战。对于传感器数据量已经达到PB级别、且结构化和半结构化数据日益增长的物联网平台来说,需要和企业一样共同面对大数据带来的挑战,挖掘大数据中所潜藏的巨大价值。
物联网,尤其是基于类似山西省的这种煤炭、环保、公益物联网平台,在遇上大数据的时候,更多的需要考虑甚至重新部署设计,以获得更为灵活高效的实时监控和预警,并帮助各类企业和环保等公益事业部门做出更科学合理的决策分析。可以预见,生态中国、美丽中国,需要物联网,更需要大数据解决方案。
第4、云平台:个性化自主学习
情节概览:教育是一个国家和社会最具灵魂性的领域。对于教育而言,关系到每个人的切身利益,而且伴随着每个人的成长旅程。教育可以改变人的命运,同样,教育方式和教育理念也可以改变人的一生。不同于以往的“赶鸭上架”式教育模式,借助信息技术在二十一世纪的教育模式将发生根本性转变。这些转变中,以“个性化学习”模式最具变革性。比如在重庆石堰镇中心学校,采用了一种“一对一数字化学习”的模式推动传统教育的变革。
具体做法是,通过引进英特尔“一对一数字化学习”项目,前期先在实验班开展实施,给每一个学生都派发个人学习终端(小电脑),并在一对一数字化教学环境下,加强互动教学与整合信息技术的培养,将传统的学习以教师为中心转变为以学生为中心的自主、交互式教学。如何实现个性化学习呢?让学生融入到快乐自主学习的状态,培养知识探究的求学精神,最后还会通过课程标准和学习评价系统,对每个学生在不同科目上的学习进度、兴趣爱好、知识关联上的不同,针对性地做出教学指导和建议。目前,该学校已经全面开展了这种个性化数字学习模式。
总结分析:“一对一数字化学习”并不一定是最理想的个性化学习模式,但却是目前最具实践性并帮助取得教育信息化改革突破的最好方式。个性化学习,会通过学生在自己的学习平台上的多媒体学习资料、学习进展、互动(包括书面和音视频)、自主学习(利用平台主动学习相关领域科学知识),帮助学生完善知识结构并加快学生对自身兴趣爱好的挖掘和特长的培养。
对学习评价体系,也会根据每个学生的这些行为特征和学习内容,对考核和科目设置进行评价,并最终帮助培养学生早日成为创新人才。虽然单个学生的各种数据(结构、非结构)量并不一定很大,但从整个教学模式的转变,尤其是在教育信息化改革的背景下,这种学习方式也体现出了基于大数据的个性化学习发展方向。
可以预见,未来个性化学习终端,将会更多的融入学习资源云平台,根据每个学生的不同兴趣爱好和特长,推送相关领域的前沿技术、资讯、资源乃至未来职业发展方向等等,并贯穿每个人终身学习的全过程,也就是个人云平台中贯穿自己终身教育的应用。
第5、网络求职:“上位”变得更加简单
情节概览:求职,是每个学子走向社会的必经之路,也是实现个人价值最为常见的方式之一。在这里,我们讲的并不是大数据时代下涌现出的大数据相关岗位,也不是介绍大数据促进rr就业机会,而是如何通过大数据让“对”的人才更好、更快地在“对”的岗位“上位”。
网络求职,是广大求职者找工作的一种重要途径。从开始之初的简历制作、投放技巧到面试技巧等等,其实说的都是一个问题,以更好的技巧来找到更好的岗位。如果说传统的网络求职更多的是投机取巧的话,那么大数据时代下的网络求职则是智能分析。当然,这种智能化既有利于招聘者也有利于求职者。
网络上的每一秒钟,都有^在发电子邮件、在线交易、观看视频、内容检索等等。而网络求职更多的就是内容检索。1秒钟背后的上万亿URL,要求高效的数据检索和算法。互联网搜索经历了数据、信息到知识、智慧搜索的发展过程。目前的搜索引擎正处在从信息搜索向知识搜索发展的阶段。
近年来,在搜索领域出现了一种基于语义的分析搜索技术,这种技术在招聘求职行业拥有广泛的用途。通常来说,招聘流程包括三大过程:异构数据转化成同构信息、筛选并提炼信息、信息高效存储和推送。由于文化背景、语言背景、教育背景等不同而造成的表达方式不同,会导致人才简历、招聘启示、用户行为在表现方式上的不同。通过语义分析技术将它们转化成可以对比、关联、筛选的同构信息,并将合适的人才信息与合适的岗位信息进行匹配。
总结分析:单纯看求职者简历,数据量再大也不属于大数据;仅凭招聘启示,再复杂多样的表达方式也同样不属于大数据。如何更智能、更高效、更准确地为人才和雇主搭建起桥梁,才是大数据应用的精髓所在。
一方面,企业主需要有更多渠道来寻找更具有成长价值的人才,而在网络这个平台上,由于海量求职信息的充斥,使得企业主寻找合适人才的时间成本和资金成本都很高。广大猎头在市场上得以快速发展就是最好证明。另一方面,应聘者需要更准确地寻找到自己适合的成长平台。通过网络途径,将自己的教育背景、从业经历、技能特长等固化到个人属性之中,并以此对海量数据信息进行筛选分析,找到称心如意的岗位。
语义搜索能理解工作和技能的特征,识别同一个词在不同语境中不同的语义。一方面把简历和职位信息映射到语义网络中去,另一方面把用户搜索和用户行为也映射进去,最终通过语义网络实现精准搜索和匹配,将招聘者或求职者从搜索和分析工作中解脱出来,让二者的匹配能达到最优。
第6、信用卡:消费者的管家和助理
情节概览:信用卡不同于储蓄卡,它鼓励透支消费并按照协议进行偿还,如此反复并建立起现代消费的良性循环,实现商家、银行和消费者三者都获益。
信用卡的发展,乃至于整个银行业的发展,都与计算机技术、通讯技术的发展息息相关不可分割。比如信用卡安全码就是根据户主的信用卡卡号以及一套复杂算法计算得出,以此区别信用卡的真伪。
相比电子商务,银行业尤其是信用卡领域接触大数据来得还是晚一些,但信用卡的发行和使用,其实也都与大数据息息相关。一方面,银行在确保安全可靠的情况下,会给那些优质客户提供高级别信用卡(比如极具身份地位象征的“黑卡”);另一方面,他们还会根据信用卡持有人的消费记录对其进行精准营销、级别调整等等。
有没有想过,信用卡能在卡主无意识的情况下暴露出其行踪?甚至能根据卡主的使用情况大体了解一个人的兴趣爱好、工作居住情况、人际关系和业余时间安排等等。因为信用卡是在刷卡消费,而储蓄卡仅仅是通过取款消费。因此信用卡更能直观、准确、全面地反映出卡主的个人特征。
比如,当持普通信用卡的用户所持信用卡是没有附加航空意外险和航空里程积分的产品,但是当该持卡人使用该卡购买了机票,作为发卡银行就会主动向该客户推荐带有航空意外险和航空里程积分的航空公司联名信用卡。同样,用户还会经常收到频繁消费或者关注度高的产品促销信息,这些信息的背后其实也都潜藏着大数据的应用,通过用户无数的交易行为、还款记录、消费地点等,对其进行分门别类,并对日后的额度提升、用户升级、商业贷款提供依据。
总结分析:数据将是未来银行的核心竞争力之一,在“大数据时代”,银行所面临的竞争不仅仅来自于同行业内部,外部的挑战也非常严峻。虽然银行对于传统的结构化数据的挖掘和分析在所有行业中都处于领先水平,但银行传统的数据库信息量并不丰富也不完整(仅仅拥有客户基本身份属性,没有客户的个性属性),缺乏对用户性格特征、兴趣爱好、消费习惯、行业和家庭状况等等信息的收集和了解。
此外,信息技术的发展,使得用户的资金交易信息越来越多地来自网银浏览、服务通话、ATM录像监控等等非结构化数据。银行缺乏对这些数据的分析和整合,进一步凸显在信用卡环境下大数据应用的紧迫感。因此,新时代下的信用卡更突出了大数据的应用价值。
第7、天文探测:了解宇宙的金钥匙
情节概览:我们时不时的会从新闻中看到各种天文奇观、星系、星团、行星的报道,而且不仅能给出大致的形态、结构、距离等属性信息,甚至还可以给出天文奇观上演的准确时间以及星体年限等信息。
比如登上美国NASA重点观察名单的代号为4179的“图塔蒂斯”行星。当时NASA形容这款行星为“形状似花生,又似哑铃,直径约5公里,每3.98年就会经过地球一次。”2004年,该小行星曾与地球“近距离接触”,两者距离最近时仅为150万公里。更为重要的是,人们还能精确预测其飞临近地点的准确时间。
我们国家的嫦娥二号卫星是距地球约700万公里远的深空成功飞越的行星,并对其进行了高清晰成像。
我们经常看到的天文奇观预测报告,其实很多都来自于NASA背后的海量数据收集、管理、分析。从1959年以来,NASA JSC(约翰逊航天中心)已收集400多万静态图像,总达950万英尺的16毫米胶卷,85000卷录像磁带,以及总时长81616小时的视频模拟及数码档案。通过开发10(在线影像)应用平台,对影像文件名与所有相关元数据连接,并对其进行存档、管理以备科研之需。
总结分析:天文学是最先经历信息爆炸的科学领域之一,其数据量之大、类型之复杂,恐怕不是一般的行业领域所能比拟的。
首先在观测方面,普通的人眼是不行的,需要通过天文望远镜来实时监测,并对天文物体的距离、运动轨迹进行跟踪拍照,这些生成的图片数据单个都有上GB的规模(高清原始图像);通过这些观测收集的数据,还需要对其进行处理和备份,并通过高性能计算平台,对其挖掘。筛选挖掘出有价值的数据信息,分析获得所要开展科研的情报。
第8、风力发电:科学选址精确测定远程监测
情节概览:为什么在大城市里面看不到风能发电机?为什么风力发电机都齐整有序的排列?早期的风力发电场更多是选择在风力大、地势平坦、常年盛行的地理位置,而如今,人们更多的会通过科学计算来准确选择风力发电机的选址和间距。
一家丹麦风力公司Vestas,通过使用超级计算机以及大数据模型解决方案,精确定位其风力发电机,以达到最大发电量,并减少能源成本。从全球天气系统中收集的数据,与公司现有发电机的数据结合,存储于风库中。
现在,该公司的风库存储有2.8PB数据,这些数据涵盖地面至300英尺高空的气温、气压、空气湿度、空气沉淀物、风向、风速以及公司的历史数据记录。另外,该公司还增加全球森林砍伐追踪图、卫星图像、地理数据以及月相与潮汐数据。
总结分析:风速及风向的变化对风力发电机的发电量有着较大的影响。通常,塔架越高,风速越大,气流越平稳,发电量越大。因此风力发电机的
第9、预防犯罪:让小偷自投罗网
情节概览:《黑猫警长》大家都很熟悉,它讲述的是“黑猫警长”如何精明能干、对坏人穷追不舍、跌宕起伏的故事情节。拿到大数据时代背景下的话,虽然它也能体现“黑猫警长”的尽职尽责、聪明能干,但更多的会归结到一个问题:为何还是如此的被动、低效?疾病可以预防,难道犯罪不能预防么?
答案是肯定的。美国密歇根大学研究人员就设计出一种利用“超级计算机以及大量数据”来帮助警方定位那些最易受到不法份子侵扰片区的方法。具体做法是,研究人员通过大量的多类型数据(从人口统计数据到毒品犯罪数据到各区域所出售酒的种类、治安状况、流动人口数据等等),创建一张波士顿犯罪高发地区热点图。同时,还将相邻片区等各种因素加入到数据模型中,并根据历史犯罪记录和地点统计并不断修正所得出的预测数据。
IBM也通过大数据技术和整合预防犯罪和数选址应慎重考虑,每一次安装都不同,而且要考虑塔筒高、电池组的距离、当地规划要求以及建筑和树木这些障碍物等因素。这些因素的背后,考验的是施工方对这些数据(包括数值数据和图像、遥感、检测等数据)的分析能力,并帮助决策生成科学合理的方案。可以预见,风能包括未来的潮汐能等清洁能源的应用,都将引入更多的大数据技术和解决方案,帮助人类更加科学合理的利用这些可再生能源。据智能软件资源,为执法部门、国防、国家安全和私营机构提供智能和调查服务。当然,这种服务也可以被用来提供数字营销、运营管理等服务。
总结分析:美国中情局曾经利用过云计算和大数据技术找到恐怖分子,也属于此类话题。其实,对于犯罪分子而言,往往事先都有犯罪动机(所谓的“激情犯罪”另当别论),也就是刑法上的所说的“行为人为追求某种结果的发生而故意采取某类行为”的主观故意。
而在大数据时代下的个人,其生活状况、消费习惯、家庭背景、社会经历、身份特征等等,都将成为数据集的人格化,可以通过这些数据来区分任何一个人。作为执法部门,考虑到整个社会的利益,需要也有必要对某些潜在的特定高危人群进行布控(尤其在犯罪高发地区)。在经过对数据的收集、传输、存储、分析等一系列过程之后,最终将为执法部门提高执法效率,变被动为主动,由教育劝解变犯罪预防。
第10、天气预报:天公的心我最懂
情节概览:2012年7月21日北京遭遇特大暴雨,在一天之内,平均降雨量达164毫米,这是北京市61年以来最大规模暴雨。此次暴雨因来势凶猛给广大市民生活带来巨大影响。其实,摊上这种事儿,最主要的还是需要气象部门及时、准确地做出预警,并协同其他运营部门,将这种预警信息第一时间下发给北京市民(包括在京旅行的人士)。也正是如此,那场暴雨不仅暴露出了管理工作上的漏洞,也引起了业内人士关于一场“大数据”的探讨。
在美国NOAA(国家海洋暨大气总署)其实早就在使用大数据业务。每天通过卫星、船只、飞机、浮标、传感器等收集超过35亿份观察数据。收集完毕后,NOAA会汇总大气数据,海洋数据,以及地质数据,进行直接测定,绘制出复杂的高保真预测模型,将其提供给NWS(国家气象局)做出气象预报的参考数据。目前,NOAA每年新增管理的数据量就高达30PB(1PB=1024TB)。由NWS生成最终分析结果,呈现在日常的天气预报和预警报道上。
总结分析:气象对社会的影响涉及到方方面面。传统上依赖气象的主要是农业、林业和水运等行业部门。而如今,气象俨然成为了二十一世纪社会发展的资源,并支持定制化服务满足各行各业用户需要。
气象研究和预报,需要借助海陆空多种设备,通过多个地点的数据采集,形成完整的数据模型,并根据气象学的原理推断未来的气象状况。最为常见的就是大家在电视上所熟知的气象卫星。它从太空上对整个地球包括地球上的大气层进行观测,这些观测数据会结合气象卫星云图和走势分析,为气象部门的天气预报提供参考。通常采集的这些数据都是非结构类型,而且变化趋势呈现随机性特点。