1.4 视觉智能实例:城市之眼
视觉之眼,是城市的眼睛。我们要处理的是城市的摄像头,不管是交通、安防、城管,还是个人的,这些摄像头的数据,我们思考怎样把它的价值挖掘出来。里面涉及到的技术仍然是视觉数据的检测、识别、系统、搜索、挖掘等。
这个例子是交通视频的分析,对车辆的检测、车辆的跟踪、车辆的属性,就是将路面上发生的事情了解个底朝天。过去做交通优化时有两个信息源,第一个是地感线圈;但线圈数据不知道这个车的属性、车类型、车多长,这个车到哪里去了,这个信息不全。第二个数据,是GPS的数据,但一般只有少数人开启GPS,所以是采样数据。视频数据不同,是“眼见为实”,摄像头见到的才是真实完整的数据,所以这个数据是不可替代的。
这个例子是另外一种摄像头,高点的摄像头,虽然细节看不清楚,但是数数可以数得出来,而且,你任意画一个区域就知道关于这个区域物体的移动情况。比如经过多少辆车、大概的类型是什么;有的地方不让停车,你可以画个区域不让停,一旦有车停了就报警。这些技术也没有什么特别的地方,也有很多人做类似的工作。但是有一件事情不同,就是如果处理大量这样的数据,几万、几十万这样的数据,你需要在一个平台上进行实时处理,这就不是一个简单的事情,而且处理的效率要足够高,这是很关键的事情。我们有离线和实时两套处理系统,大规模离线视觉分析,这个是阿里的一套系统,对实时性要求不高的大量视频数据,离线比较容易处理。实时的原理也差不多,只不过有延时方面的要求。系统实现上,还有时间上的和空间上的实时协同。比如说,对一个路口的交通灯进行管控,你要看这四个路口,还要看旁边几个路口,你在实时分析时还需要把空间多路信息进行融合。时间和空间的协同问题,是由平台来支撑,而不是算法,这样我们做算法的人员就可以集中在算法的设计和优化上。
还有搜索的功能,刚才讲了电商的搜索,这个量级不小,但是还有一个量更大的就是城市的数据。城市的数据量太大了,里面有车、有人。人是非常难的事情,人脸相对容易,而看不清人脸的人就非常难;车相对容易一点,我们要学习它的结构化特征和它的非结构化特征,也就是用一个向量表示的视觉特征。
这里我稍微岔开来讲两个关于视觉数据的特别的例子,其实也是城市视觉识别技术的例子,但又是在数据的量上和我们直观的感受并不太一致的例子。第一个是车牌。数据这件事情是非常有意思的,刚才讲了大数据,但是刚才讲的数据一个是研发算法的原料,第二个是人工智能的原料。对于算法研发而言,往往需要大量的标注数据,但有时这样的数据并不容易获取,或者获取的成本比较高。例如车牌的识别,车牌看起来数据量很大,但双层黄车牌的量就要小很多。有一种思路就是自动生成一些车牌作为车牌识别的训练数据,这两幅图就是例子,是算法生成的以假乱真的车牌。这个车牌产生以后,对识别的准确率有显著性的提升。还有些场景,数据的获取更可怜,比如事故,但是你有大量正常的样本,一样可以用来作数据的模型,把它作为异常检测的问题来做就可以了。这上面是公开测试级上的结果,视频中间有人撒了一点纸,这个异常的检测响应是非常明显的;下面的这个例子是车辆的刮蹭,是个真实场景,难度就大多了。
从搜索的角度来讲,我们把整个城市的数据如果都收集起来,放到一个大数据里,建好索引,大家脑补一下,将会对城市的交通优化等应用产生什么样的影响。如果我们再进一步挖掘数据的价值,有很多应用场景可以考虑......