让计算机可以看懂这个世界

摘要：站在风口上，猪都能飞起来。但关键是下一个风口会在哪里？不同的人肯定有不同的看法，比尔盖茨给出的答案：IT界的下一个大事件是计算机视觉（computer vision）与深度学习（deep

站在风口上，猪都能飞起来。但关键是下一个风口会在哪里？不同的人肯定有不同的看法，比尔·盖茨给出的答案：IT界的下一个大事件是计算机视觉（computer vision）与深度学习（deep learning）的结合。今年6月中旬访问北京时，他到访的第一家创业公司也是一家计算机视觉的公司。

这家公司就是格灵深瞳，今年6月刚刚获得来自红杉的数千万美元A轮融资。近期，我们也和格灵深瞳的创始人何搏飞聊了下计算机视觉和格灵深瞳正在做的事情。我也把其中很有意思的点也整理了出来。

让计算机可以看懂这个世界

几千年前，人类就已经发明了文字；几百年前，人类已经制造传递了声音；直到最近几十年，人类才发明了动态图片，也就是视频。与文字、声音相比，视频承载了更丰富的信息量。要完全提取、“读懂” 视频里的信息量，即使对人来说，也都不是一件容易事。试想下，当玩着手机去看电视时，我们会丢失掉多少信息呢？虽然机器缺少大脑，不会思考，但与人相比，也有计算能力强的优势。如果我们可以教会计算机看懂这个世界，是不是就会有质的改变呢？

那要如何才能教会计算机看这个世界呢？十几年前，学界还专门有场争论。本世纪初，有不少专家认定，凭借着现有的摄像头，加上强大的算法，就能建立起一套完善的计算机视觉机制。当时，还有一些人不这么看，当时还在布朗大学读书的格灵深瞳创始人赵勇，就是其中之一。赵勇他们觉得，我们看到的这个世界是三维的，而传统的计算机视觉机制用到的是二维的摄像头，无法还原这个世界的真实情况，在这个基础上完成的视觉分析，也会大打折扣。这样的想法，在当时看起来离经叛道，十几年后才被业界逐渐认可。

做第一个将计算机视觉商业化的公司

事实上，教机器看懂这个世界，很多年前就有人在做了，只不过采用的是“摄像头+强算法”的理论框架。Google、百度也有在做，但不同的是他们想做的还是搜索、社交。格灵深瞳则想要将计算机视觉商业化。用何搏飞的话说，他们想“做第一个将计算机视觉商业化的公司”。

提到格灵深瞳或者打开他们的官网，好多人估计都会以为这是一家做智能安防摄像头的公司。这个定位只是表象，其实更确切的形容也许是“计算机视觉以及人工智能”，他们想让计算机像人一样主动获取视觉信息并进行精确的实时分析。安防“摄像头”只不过是一个商用的具体表现。

大家都知道，安防是个大市场，这个市场到底有多大呢？我们就来简单的列两个点：（1）去年中国智能手机的销售额是3200亿，而安防设备的销售额则达到了4000亿；（2）杭州最大的公司是阿里，那第二的公司是谁呢，是做安防摄像头的海康威视，已经在深圳上市，市值去年已经接近中兴的两倍。

而如此大的市场，却有两个问题至今没有办法解决，一个就是看不见，一个就是找不到。先来说看见的问题：一个像机场大小的公共场所，摄像头的数量能够达到几万台，而同一时间负责监控视频的安保人员大概也只有几个人；视频监控界往往都采用了视频画面轮播的机制，每过多久自动切换屏幕上显示的监控视频画面；所以，那些真正有信息价值的画面被人看到、注意到的几率就很小很小了。

据说，全球50%的硬盘都用来存储监控视频了，可想而知，监控视频的数量有多大。以北京天安门为例，每天产生的监控视频数据，刻成光盘摞起来，就比埃菲尔铁塔还高。要在全球75%的硬盘或者比埃菲尔铁塔还高的光盘里找出来某一个画面，难度估计不亚于大海捞针吧。

写到这里，估计你就知道格灵深瞳的安防产品能解决什么问题了吧。格灵深瞳通过三维视觉感知技术，实现对人物的精确检测、跟踪，对动作姿态（包括暴力、跌倒等危险行为）和人物运动轨迹（包括越界、逆行、徘徊等可疑轨迹）的检测和分析。在自动场景和人物检测的基础上，自动给安保人员提供预警信号，主动提醒、报告异常，保障安保人员“看得到”。

同时，格灵深瞳通过三维视觉感知技术，抽象出人物的特征，从非时间的维度进行监测、跟踪、搜索，真正做到“找得到”。

今年10月份，他们就要将自己的这套安防产品进行试点布局了。首批试点的会是四大行中的三大行。而之所以会选择银行，何搏飞告诉36氪，是因为他们看中了银行对安防的需求，以及银行安防方案的可复制性。银行是除了政府以外，最大的安防设备采购商，同时也愿意不断增加安防产品的数量。加上国内银监会严格规范了银行的室内布局，这种复制性就会挺高。

让线下零售“电商化”

电子商务兴起，给了商家“精细化”运营的重要数据支撑，对线下零售产生了重大冲击。在零售领域，格灵深瞳也可以通过三维视觉感知技术，对消费者行动轨迹以及行为模式进行检测、跟踪和搜索，精确统计出在设定的热点范围内的客流量、停留时间、行动轨迹、消费者行为，提供客观的消费行为分析数据，帮助传统零售客户转向数据驱动的管理方式，提高商业运营效率，在线下“电商化”。

事实上，除了商超、零售店，每年都会有大量的品牌商，花费重金找咨询公司购买数据和分析报告。在线上，消费者可以很容易打开无数个网页，浏览每一个商品花费的成本很低，但在线下，用户每一个浏览行为、采购行为都是有成本的。因此，格灵深瞳他们统计的数据也就更加珍贵、有意义。

我们的生活会发生什么样的改变

监控摄像头已经潜移默化地融入到了我们生活的方方面面，但事实上这些安防摄像头发挥的作用还很有限。虽然有几千个摄像头，但发生暴乱、扰动时，往往还是依靠现场的人电话报警。在“敌众我寡敌强我弱”完全不占优势的“烧杀抢夺”情境下，普通大众往往会成为无辜的受害者。格灵深瞳的产品里增加了一个很贴心的功能，挥动双手自动报警。如果不考虑安保人员的疏忽、不负责、不行动等因素，也许就能起到一定的保护作用。当这样的设备普及，未来就能很好的起到对犯罪的威慑作用，这才是真正的社会意义所在。

把视野再扩大到个人安全以外的公共安全，格灵深瞳完全可以在此基础上提供更多的产品与解决方案。未来，也许地面上警务人员就可以带上类似Google Glass一样的智能眼镜，实时显示着监控中心传来的画面与位置；天空上则飞行着搭载格灵深瞳产品的无人机，实时根据监控中心视频分析的结构，追踪可疑人物，真正做到无路可逃。

想想这样的世界，很安全，但是否不寒而栗，我们的隐私何在？任何一家做图像分析的公司，估计都绕不开这个难题，格灵深瞳也一样。何搏飞说，他们做的是趋势的研究，不会去精确分析到底是谁。而安全与隐私，何去何从，未来大众肯定会用自己的方式投票。

硬件复兴到底会往哪里去

与何搏飞聊天的时候，我忽然想到了前几天和Makeblock的创始人王建军聊的一个问题，就是硬件复兴到底会往何处去。当时王建军提了一个很有意思的观点，硬件复兴其实是有两个层面的，一个是像可穿戴设备这样的应用层层面，另一个则是像芯片、技术这样的基础层层面。格灵深瞳、诺亦腾这些我们报道过的公司，其实都可以算做这种基础层的公司。

PS:

他们最近也在招聘计算机视觉工程师、软硬件工程师、BD、PR和行政人员，感兴趣的童鞋可投简历至邮箱（hr@deepglint.com）。

时间： 2024-09-20 00:50:13

让计算机可以看懂这个世界

让计算机可以看懂这个世界的相关文章

格灵深瞳让计算机看懂这个世界

让冰冷的机器看懂这个多彩的世界

WCTF世界黑客大师赛，你看懂了多少？

让世界都能看懂你的Feed

人性的真相 - 看懂了这些图，你就看懂了整个世界

【AI+娱乐】一图看懂爱奇艺大脑增强版，智能视频峰会有AI更有爱

十分钟看懂图像语义分割技术

DT科技评论第20期：IBM Watson采用 GPUs 分布式网络看懂图片内涵

斯坦福项目NeutralTalk：让电脑像人一样看懂照片