媒体监测和推荐平台

名家讲坛

当前位置:首页 > 名家讲坛 > 详细内容

大数据时代网络技术与应用

——中国工程院院士邬贺铨

主持人:下面有请中国工程院院士邬贺铨院士演讲,演讲主题是:大数据时代网络技术与应用。有请!

邬贺铨:各位专家,各位代表早上好!

大数据时代网络挑战、大数据应用价值挖掘、大数据时代支撑技术、大数据引发的产业变革。

第一,大数据时代网络挑战,全世界联网主机数中轴标是上升趋势,2007年全世界人均只有0.1个设备是联到网上的,到2013年人均7个。在2011年末视频占全球消费者互联网流量一半以上,2016年为55%,2016年每3分钟传送360万小时视频,相当于全球已生产的全部电影。这是全世界骨干网IP流量,(见PPT),增长也很快,2010年在全球互联网流量中,美国是6337PB/月,占全球31%,中国占全球63%。

这是全球运营商提供的国际干宽带,带宽流量增长非常快,美国、加拿大增长54%,欧洲增速66%,东欧和印度等地区增幅超过100%,全球增长62%。这是移动互联网流量,占整个互联网流量比例,整个移动互联网流量占全球互联网流量10%,亚太地区流量比例更高,大概1/5的流量是移动互联网的流量。这是互联网上一分钟可以干什么,苹果应用可以下载4.7万次,歌曲网站一分钟可以上传6万多首歌等等,互联网上一分钟容量发生非常大的变化。左边图表述,一个网民一个月可能消耗多少流量,1998年一个网民一个月消耗1兆流量,2003年数字到100兆,2008年一个月到1G的流量,到2014年一个网民一个月可能要到10G。人民往往用全世界互联网流量达到一个Eb所需要的流量。全世界互联网上一天产生的信息量大概1Eb。今年和明年,互联网新产生的数据量等于一直到2011年所产生数据量的总和。

大数据的定义,大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在数据TB和数据PB之间。

安全监控的数据量,视频监控摄像头广泛应用于国内多个城市的主要道路、热点地区、地铁和居民小区的安全监视,北京差不多有80万个,在北京只要上街,一次至少被拍8次以上。

这是电子病历,像北京的301医院,北大人民医院,每天门诊病人超过1万亿,病历里头蕴藏大量有用数据,把它电子化后,这里面有大量可以用的数据。企业数据也不少,全世界企业存储总数据总数达到2.2ZB,未来年增67%。10KB大约相当于一张填满了文本的单页纸,如果采用叠纸的方法,1百万的TB的堆积相当于帝国大厦的高度。

海量数据量,淘宝,在2010年就已拥有3.7亿会员,在线商品8.8亿件,每天交易超过数千万笔,其单日数据产生量超过50TB,存储量40PB。11月11日接受2.15亿用户购物,处理交易1.058亿笔,峰值时达9万笔/分钟。

第二,大数据应用的价值挖掘。IBM日本公司的经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算出采纳经理人指数PMI预测值。印第安纳大学者利用Google提供的心情分析工具,对270万用户在2008年3-12月所张贴的970万条留言,挖掘出用户的心情。

这是一个企业涉及到管理部门、开发部门、销售部门、支持部门、服务部门,过去这些部门之间的关联是不够的,现在通过大数据分析,可以把一些部门关联起来,可以大改善企业管理效率40%-60%,传统企业有一个数据仓库已经很不错了,仅仅有数据仓库是不够的,需要从中挖掘内容,提取服务。

大数据在农业应用,硅谷有一个气候公司,从米过气象局等数据库中获得几十年的天气数据,将各地降雨、气温和土壤状况及历年农作物产量做成精密图标,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。

什么顾客最会买东西,妇女,哪个顾客群是黄金顾客,孕妇,他为了发现孕妇,找出一些特点,孕妇一般买一些化妆品是没有刺激性的,还有补钙等等,根据这些判断一个妇女是不是怀孕了。他把一些孕妇产品广告送到顾客那里,他把杂七杂八的东西也塞到这里面来,通过这个细节,向细分顾客群销售。

沃尔玛通过对消费者购物行为等非结构化数据分析,了解顾客购物习惯。啤酒跟尿不湿摆在一起销售最好,年轻爸爸一般买尿不湿的时候,通常要犒劳一下自己买一下啤酒,因此这两个商品放在一起卖效果很好。

华尔街“德温特资本市场”公司分析全球3.4亿微博账户流言,判断民众情绪。人们高兴的时候会买股票,而焦虑的时候是会抛售股票。依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。最近,我国很多中小企业从银行贷不了款,因为他们没有担保,阿里公司根据淘宝网上的改易情况筛选出财务健康和诚信企业,从而不需要担保贷款,目前已放贷300多亿元,坏账率仅0.3%,淘宝的筛选是还是很准确的。

利用短信、微博、微信和搜索引擎热点事件与舆情挖掘,MIT的Reality无Mining项目,对10万多人手机的通话和短信和空间位置等信息进行处理,提取人民行为的时控规则性和重复性,进行流行病预警和犯罪预测。运营商拥有大量的手机数据,通过对手机数据的挖掘,不针对个人面是遮掩与群体行为,可以从中分析,实时动态的流动人口来源和分布情况,出行和实时交通流信息及拥塞情况,物品热销情况等等。十八大刚刚在北京开了,北京对维稳比较敏感,假如说到天安门广场旅游,来旅游一个小时左右可能就离开了,如果到天安门广场有别的目的,就老在那里转,通过手机就可以知道来自河南还是四川,这实际上也是一种大数据的分析。根据手机从这个路口走到那个路口的数据,我们可以判断交通流量情况,同时检测到多少手机,也可以判断这时候有多少车辆。传统我们上网,看的是专业人员写的东西,我们叫 Web1.0,信息交互技术我们叫Web2.0,语义技术Web3.0,智能应用技术Web4.0,我们希望网络将来给我们分析一千条、1万条,未来我们希望互联网给我们的是答案,那就对互联网的要求就高了,需要读懂这个数字和文章,再分析。

比如说卖房子的广告对大多数的人来讲是垃圾广告,对想买房子的人或者他拿手机拍卖房子广告的人,很可能就是想买房子的人,就可以利用这个来分析他,说不定就联系上这个客户了。

比如说通过后台计算机让比尔盖茨的嘴巴跟着声音动,当然也不能只是说话,将来可能还要改进,让比尔盖茨摇头动脑。

大数据在医疗保健的应用,谷歌流感趋势,宜居网民搜索内容分析全球范围内流感等病疫传播情况,于美国疾病控制和预防中心提供的报告对比,对追踪疾病的精确率乐观达到97%-98%。

比如说一般糖尿病是慢性病,病人可以在社交网络上建成一个小圈子,互相交流,怎么控制饮食,怎么运动,用什么药比较好,怎么避免并发症,这些糖友交流的信息,是很多医生得不到的。医生通过进入这个小圈子,可以得到跟治疗效果和治疗用药有关的数据,大数据在医疗上也很好用。

现在同样一种病用同样的药效果不见得是好的,比如说75%的癌症病人都是肺癌,都是用肺癌药,75%没用,75%对老年痴呆无药,50%对关节炎病人无效,将来我们希望通过对基因的分析,做到真正个性化的医疗。

大数据科学研究,天文学的研究、气候变化分析与预测,材料基因组中新材料的设计,超材料特性的分析等等,都可以得到很多的应用,可以分析它应该采用什么行动。

奥巴马刚刚竞选成功,他的团队数千万,通过社交网和微博收集选民的爱好和关注,利用软件分析并建立选民档案。例如某个选民在Facebook或者Twitter上的大部分帖子都是关于环保和医疗成本,就可以通过电子邮件发一条源自奥巴马专门谈论环境问题的信息让该选民有理由支持总统连任,同时还可以从选民那里得到新的反馈。美国政府鼓励开放数据,网民可以在政治网站找到数据,甚至这个地区的快餐店跟胖子数量的关系,可以找到关系处。

大数据的经济价值,美国保健的年度潜在价值大概是3千亿美元,欧洲公共管理潜在价值是2500亿欧元,服务提供者利用全球个人位置数据可以获得潜在消费者年度盈余6千亿美元。世界经济论坛去年的报告说,大数据就是新财富,价值堪比石油。

异源数据协同处理与云计算,这是无锡的一个例子。我们有多种传感器,我们要建立一个模型,什么传感器得出来的量、化学性质、物理性质跟蓝藻是有关的,什么是无关的,通过模型才能很好的判断是不是发生蓝藻。

大数据在管理上,来自不同地方不同标准,数据量大型、结构形式、实时性等要求不同,增加采集、便所与整合的困难。数据存储,传统的集中式数据库、数据仓库系统已不能有效的处理大数据的存储和分析,需要分布式处理。一般来讲,首先数据获取,要从移动互联网、物联网、互联网获取数据,然后送到存储系统,光存起来也不行,如果没有标签,将来也找不到,所以需要标签化、摘要,方便快速查询,最后进行有效统计分析。我们一般来讲,现在都用低成本分布处理器,低成本怎么保证可靠性?往往是用余存储,把一个数据分几分,存到不同的地方。我们首先把不同类型的数据要分类,不同业务数据分类,不同颜色表示不同业务类型,分到不同的地方,只有这样才能进一步优化数据处理。现在的难题是分解数据,结构化的数据处理起来需要关联,比如说一个不大的企业要做IT,做不到每一人一部计算机,有一个员工说我的工作很重要,需要申请我自己用的电脑,给老板发短信说我需要一台独子的电脑,然后扫描过来是“台独”。近几年北京防止学生到天安门广告搞反日游行,所以短信里头出现反日和游行的短信就给封了,有一个老头给孩子发短信说“你千万不要到天安门游行”,结果也给封了。

照片里标语的文字,需要通过OCR扫描,然后再照关键词分析,非结构化分析比较困难,有一些可以转成实时化。

我们看一下流媒体的处理,传统的数据是放到数据库里头,大数据的分析我们一边进来一边分析带程序进数据,所以分析也是不同的。大数据的分析需要利用云计算,80年代我们谈的数据库,90年代谈的IDC,现在是云计算云服务。大数据最后的结果需要可视化,不能说简单一个大报表,需要可视化才能更简单。

在上海延安路上,布满了摄像头,全上海所有马路上很多摄像头显示屏,只能每10秒钟轮放一遍,然后大数据把延安路上所有摄像头合成一个视频,我一看到整条延安路的交通情况。甚至把整个上海的交通流量合成一个数据,我可以看到东经北纬那个时间点的交通是拥塞的,大数据需要什么?可视化的表现。

这是一个篮球半场,NBA统计去年和今年美国NBA球队投篮情况,这个蜂窝状的大小标志在这个点上投篮的概率多高,红色的表示在这个点上投篮命中率多高。我们看篮板球命中率很高,两边两角命中率很高,是3分球。这是直观的可视化结果,也可以很好的让教练去训练球员。

移动通信的发展,终端也成为大数据的入口平台,大数据的出现,路由器需要配备,传统的路由器是有操作系统的,现在我们需要把操作系统上移,我们可以通过网络操作系统控制路由器,网络可以根据数据流向优化网络处置。传统计算机机构是终端主机,后来是客户到服务器,然后是P2P,只要到服务器,分享一部分的内容,跟其他的共同想下载的其他终端互相交换就可以,现在要最到S2S,因为数据之大不是一个服务器能放下的,放在多个服务器里,用户一次搜索,搜索点击量并不大,可能服务器之间交互流量更大。

智能管道技术,我们运营商首先要进行智能分析,进行策略与计费控制,还要进行内容分发。

第三,大数据引发的产业变革。大数据时代、智能化生产,无线网络革命。Gartner公司发布2012-2016年的IT发展趋势,大数据、云存储、移动应用、社交网络、网络安全,这些将影响IT业若干年后的发展。现在社交网络是大数据的重要源头,Gartner指出大数据使社交网络的内容分析支出年增45%。智能终端作为大数据应用重要出入口,它可产生于消费者有密切关系的数据,全球数十亿的用户足够使这一数据价值连城。基于智能终端的移动互联网成为大数据市场争夺的制高点之一,移动互联网和大数据推动了ICT企业的转型。现在终端PC越做越薄,手机智能终端越做越大,现在两者差距很小。一个手拿得下是智能手机,两个手拿得下的是平板电脑。智能终端里通信的属性已经在下降,在边缘化,消费终端的属性逐步增加。我们可以看一看传统做手机的企业,西门子、诺基亚、NEC现在纷纷退出手机市场,苹果、三星、谷歌从来没做过手机的公司居然进来了。国内企阿里做手机、小米做手机、百度、盛大、人人网也打算发布手机,并不是说手机硬件可以赚钱,目的是让他手机的用户一上网就上他的网站,后续通过流量从广告中变现。苹果抓住移动互联网的机遇,将产品和服务结合,实现产业链整合,不仅技术创新,还有商业模式创新,苹果打造的Apple Store的平台,控制移动数据。诺基亚满足在功能手机上的业绩,向智能手机转型上反映迟钝,在2006年就提出了向移动互联网转型的口号,但缺乏行动。索爱公司错过与音乐平台、数据的结合,索爱现在也不行了,索尼把索爱的全部股份买了,爱立信全部退出手机市场。爱立信现在是全世界第五大软件公司,而不是最大的硬件公司,它的专业服务份额是38%。微软也高调进去通讯和大数据4领域,85亿收购Skype,进军社交、网络电话和视频会议,收购AOL的专利,布局移动搜索的,发布平板电脑,进入硬件领域。谷歌2011年以125亿美元收购摩托罗拉移动,进军移动通信领域,整合服务,将社交战略放到头等位置。谷歌也开发谷歌大数据,可以允许用户免费上传他们的数据,谷歌帮你分析,他也掌握了你的数据。Facebook是社交网络最大的企业,社交网络的阵地被别人占领,所以收购了手机位置服务商,将推出自有品牌智能手机。被收购公司的两个老板很年轻,被收购公司的全体员工,这个公司总共13人,成立一年半,卖给Facebook10多亿美元,平均每个人卖8千多万美元,这是做图片社交的,人们在社交网络上,“我在吃饭,有什么字”,现在就是拿手机一拍直接发上去。Facebook认为图片社交是未来社交中很重要的组成部分。其实卖硬件的最不赚钱,做服务的最赚钱,现在整个IT行业价值链向内容供应的,向数据提供商转型,在这一点上,因为我拿05年的数据算,如果是去年的数据那将更大。苹果是佼佼者,但是在设备方面是4.97%,中国电信是1.38%,百度市值超过联通,腾讯市值超过电信,整个产业链往这个方向转移。

国际上非常关注大数据,移动互联网、下一代互联网、物联网、社交网络、云计算、大数据结合将掀起网络业务发展的新浪潮。

宽带化、移动互联网、物联网、社交网络、云计算催生大数据,大数据的价值的合理共享和利用会创造巨大的财富,大数据将带动新的产业发展,大数据对网络技术发展提出严厉的挑战,大数据互换创新人才,加大创新力度,迎接大数据时代的到来,

谢谢大家!