中国工程院院士高文:城市大脑与数字视网膜
高文,北京大学博雅讲席教授,中国工程院院士
兼任北京大学信息与工程科学部主任,中国计算机学会理事长,国家自然科学基金委员会副主任。1991年获日本东京大学电子工学博士学位。研究领域为人工智能、模式识别与多媒体计算。主持973(首席)、863、国家自然科学基金等国家级项目二十余项。
作为第一完成人,他在视频编码与系统,人脸识别以及与手语识别等方面的研究成果曾多次获得国家科技进步二等奖、国家技术发明二等奖,以及国家自然科学二等奖。2008年当选IEEE Fellow; 2013年当选ACM Fellow。
2017年6月15日,2017全球软件和信息服务高峰论坛在大连举办。北京大学博雅讲席教授,中国工程院院士高文发表了题为《城市大脑与数字视网膜》的主题演讲。以下为演讲实录。
各位专家、各位领导早上好!正式演讲之前,首先我想感谢大会组织者让我分享一些我的工作。每次来大连都是非常兴奋,我是这里出生,这里长大,有机会回到出生的地方,长大的地方,来分享我的工作,都会非常兴奋。
城市大脑,是在智慧城市中不可避免的一个决策支持系统,在智慧城市里边如果把所有的传感器,不管是图像的、视频的或其他方方面面声音的,各种各样的数据全都汇总到城市的云系统里去,最后由云系统计算得出一个结果,最后去驱动它的一个响应,就像刚才脑机接口一样城市也需要有类似的响应,怎么样能响应的更好,这显然是我们一个必须要研究的问题,当然这里有很多人工智能的问题。在这个城市大脑里我们怎么能够让大脑响应的能够准确、快速,也是我们必须要考虑的问题。所以我们首先考虑第一个关于智慧城市的问题。
智慧城市实际上不是一个新名词,最开始由IBM提出这个概念以后很多地方都在跟踪,都在做。到目前为止中国已经有几十个智慧城市的试点单位已经做的不错,其中最近做的我个人认为做的比较好的是杭州的智慧城市。
杭州智慧城市里面,它利用了一个现有系统,解决了一个非常好的问题。什么问题呢,城市交通问题。我们看看它怎么解决的。在杭州现在大概有两百万辆车,其中九千辆公交车有六百条线路,它的交叉路口非常多,大概有五万条道路,有八万个交叉路口,这样一个非常复杂的系统,现在它的整个控制当然在没有智慧城市或者城市大脑之前也可以做。就像大连的信号系统,经过很多年城市交通信息的升级改造以后都可以做的不错。
能不能做的更好?当然可以。看看杭州怎么做的:杭州实际上把整个的信号灯的视频,就是把信号灯路口所有的视频搜集起来,交给它的城市大脑进行分析。城市大脑根据监听几个月数据以后经过计算把所有情况分成三类情况,一类情况道路低饱和度的情况,第二类道路中饱和度的情况,第三类道路高饱和或者叫准饱和。经过大数据分析,它发现在整个杭州道路上低饱和状态下城市车辆的行驶速度大概是每小时37公里平均,中饱和大概是30公里,在准饱和或者接近饱和大概是22公里,这是整个城市的交通状况。好了,它用城市大脑优化模型计算以后,重新用计算的结果驱动信号灯系统。结果是什么呢,结果是在低饱和情况下,大概平均的速度可以到43公里,中饱和度在35公里,准饱和度在26公里。也就是说什么都不动,只是把数据经过这个大脑重新计算一下,可以对道路通畅率低饱和度下提高16%、中饱和提高17%,准饱和提高18%,平均提高17%,这就是城市大脑给城市带来的好处。
现在摄像头里有专门做存储用的,编码压缩摄像头。有专门做人脸识别的,看看这个路上有没有人在走人脸识别摄像头。有专门做车牌识别的摄像头,就是说车跑过去马上就能识别出来这个车的牌照号码是多少。也有一些卡口的摄像头,每一个高速公路入口出口,你在过口的时候都会有摄像头。这些摄像头每一个摄像头执行单一功能,要么编码要么识别,所有这些东西都送到云端的系统,当然它可能是分级的,它有分中心,有第二级分中心,再送到云端。所有集中起来送上去是处置现有状况。
但这个系统有问题的,有两个大的问题,第一步不够智能,它记录的数据后边计算机直接识别是很困难的,需要由人来看。经常发生一个案件,会有几十个甚至上百警察看这个视频,最长看上百小时才能把里边要找的人或者车或者事件查出来,视频感知系统实际上是不聪明的。不聪明的原因是什么?经过仔细分析,技术上实际上有两类问题,第一媒体大数据处理瓶颈,一类人工处理视觉系统的瓶颈。
多媒体大数据有三个难题,目前技术上解决比较困难。一个是存储难:智慧城市里的监控系统它存数据可能短的是存一个星期,长的是存三个月。为什么不能永久存下去呢?因为数据量太大,存起来你的成本会非常高,所以比较难存储,这是它的一个巨大的挑战。第二个是识别难:相当数量的早期摄像头分辨率比较低、光学参数设置低,所以那些视频用眼睛看马马虎虎,计算机识别完全不可能。还有不同摄像头拍的东西怎么确认是同一个物体同一量车,这个就要看车牌。同一个人同一天穿着同样的服装戴着同样的饰品,一个摄像头走过去,你很容易确认他是同样的人。但是他换了衣服你是否可以确定是同一个人。我们叫对象再标识问题,这是多媒体大数据中非常挑战的问题。
应对这样的挑战问题,技术上有各种各样可能的策略。对储存难试图找到更高能力的编码算法,这是一条出路。对于难检索的问题,你要想法找到更好的特征,使得这个特征能够有效,这样就可以提高识别的效率。对于跨摄像头的,找对象,对象再识别问题,我们这里就要使得标的或者说对行为的分析要更上一个层面才有可能解决这样的一个问题。
除了刚才多媒体、大数据这样的一个问题以外,其实还有一个很困难的问题,我们现在的摄像机网络,现在用的摄像机都是单一功能的摄像头,这个实际上跟人比较起来差很多。我们人就是一双眼睛,而且这一双眼睛,左眼右眼合起来分工看距离看立体感的。实际上一般的视觉处理就靠一只眼睛就可以了,但是这一只眼睛功能是很神奇的,他既能看到很细的细节,能欣赏一个画面,能欣赏一个人长的漂不漂亮,能欣赏他脸上有多细节,同时它也能非常宏观看这个场景里有几个人,男的女的老的少的或者是怎么样,既能很宏观又能很具体就是一个眼睛。但是现在城市大脑视觉系统不是一样的,有各种各样的眼睛,有专门看车牌的眼睛,有看人的眼睛,有做编码压缩的眼睛,这么多眼睛合在一起其实做起来非常困难了。
所以我们现在觉得,现在的系统不进化、不演进是不行了,我们必须向人学习,做人工的视觉系统,这样使得现在单一功能的摄像头尽快把它淘汰掉,换成多功能的,我们叫一多模式的摄像头,一个摄像头它可以做编码,可以做识别等等。单一功能摄像头有很多问题,时间关系没办法展开,可以简单说,三个具体主要的问题。一个是延时比较长,第二个准确率比较低,第三个利用率比较低。
为什么说延时比较长呢,因为我们做单一摄像头,在城市大脑或者智慧城市里通常这个摄像头拍了视频,把它编码压缩以后,通过一个编码器把它编码压缩,把它通过网络传递到云端,云端再把它解开,在里边抽取特征,最后识别它是什么,这个流程下来大概需要1.5秒到5秒这样的一个延时,所以这个延时使得现在我们说监控,智慧城市监控摄像头实际上它做时时处理是完全不行的。不仅是时时度不行,识别的准确率也不高。为什么呢,因为在编码的时候为了使得带宽小,它设定的编码参数设定的比较极端,把很多可能十分有用的特征都给你压缩掉了,都给你过滤掉了,这样你去做后边识别的时候你的识别率会非常低,我们曾经在技术上做过很多这样的实验,在不同人脸识别,不同车辆识别这样的条件下,我们测量的结果就是说当编码参数设定在QB值等于38的时候,在这之上还是可以的,大于这个值的其实它编码的质量人眼看还是可以,但是你要是用它做模式识别就会下降很多,下降一半以上。刚才说38是意味着什么呢,我们在家里面看着电视高清频道,大家看着比较好编码大概是32编码参数设置,到了38实际上裂开很厉害,眼睛已经能看出损伤了,到45、51、63这样几个呢,现在基本上50左右是目前监控系统用的编码参数,实际上已经把很多东西丢掉了,所以你用它做识别是很难很难一件事。
第三个问题利用率比较低,城市大脑对应的监控系统大部分数据编码扔在那儿不用了,把它覆盖掉了,作为大数据可以分析得到很多东西,当然要想在上边分析,编码的时候把很多特征提取出来,后续才能进行数据的分析和学习,所以这个也是目前系统里有这样的一个问题。
作为一个城市大脑,它的城市之眼应该要克服刚才说的四个问题。包括存储难,检索难,识别难和功能多样化,这四个问题都应该把它解决掉。要想解决这四个问题显然现有的系统是做不到的。那怎么办?我们就要演进,就要走向智慧城市的城市大脑,整个传感系统必须进化。怎么进化呢,现在城市的眼睛更像复眼,它是神经末梢,我们要把它单一功能的摄像头升级演化成多功能的摄像头,摄像头在编码的同时要能够把所有的特征同时编码提取出来,放在后边进行识别,这样后边城市大脑的决策才有可能是准确的。技术上我们已经有完整的技术支持这件事,可以把城市视网膜可以把它做好。我们现在有几个技术已经可以支持这件事。
一件事我们可以提高编码的效率,我们国家很大的团队已经做了十几年,不停做视频编码这方面的工作,我是这个团队的代表人,所以我们现在这个团队已经做出了中国自己国家的标准和国际上的标准,这个标准比国内外的最好的编码标准效率提高40%。针对识别很难我们提出了一套特征编码的技术体系,也是把它做成标准,采用国际最前沿的技术,在这个技术上我们制订了一套全新的国际标准,这个标准现在已经是可以用的。
第三个问题原来都是单一摄像头,编码需要优化的,你给定我一个码率,我要算,要经过一个妥协函数,我能得到最小的损失是什么,根据这个来计算这个问题。以前优化都是单一摄像头,我们可以进行单一优化。现在我们把一个摄像头具有多个功能,你要对它进行联合优化问题,理论上我们把它叫2D优化和2A优化联合优化。具体来说,2D为了做高效编码用的,2A做准确率高识别用的,它们俩需要优化需要两套优化曲线联合优化,这里主要就是说2DO面向编码的优化,我们需要对于识别准确率也进行优化,可以把它们联合起来进行联合优化,联合优化可以做很多实验,很多实验支撑联合优化效果比单一优化效果更好。具体通过这样一个优化,目标函数来做,这里有一些参数,通过对这些参数的优化我们可以得到一个联合优化的结果,使得整个优化目标最好。
有了前面几个技术,最后要把它做成数字视网膜,把这个功能集成到一起的一套系统,这样一套系统一旦推出来以后,整个一个摄像头可以既管编码又管特征编码,这样既能做存储用同时也能做识别用,这样对城市大脑前端视觉或者是视网膜提供最完整的支持,这套思路现在已经开始在一些地方研发和布局,我也希望,因为我们在座我看有很多做软件做监控的,欢迎大家一起来介入这样一个新的或者是演进或者是革命性的变革之中,这里会有很多机会。当然想做这个东西有很多标准要遵从,这些都是我们团队花很长时间集成包括国内一些研发力量和国外一些专家的智慧一起做出来的标准,这个标准应该说它已经是正式的标准,而且有很多都是开元的东西,大家可以获得这些标准,获得开元的码然后做自己产品的一些研发。
时间关系我直接跳入最后的结论了。也就是说作为智慧城市的大脑应该包括比较好的数字视网膜的功能,这个功能应该是一个复眼不是像现在很多单一眼组合起来的复眼,而应该是一个功能集成,能集编码和特征编码为一体的联合优化的一套视频和图象感知系统,这个系统有相关标准支持,欢迎大家多做一些这方面实现推动工作。谢谢大家!