让计算机可以看懂这个世界

摘要: 站在风口上,猪都能飞起来。但关键是下一个风口会在哪里?不同的人肯定有不同的看法,比尔盖茨给出的答案:IT界的下一个大事件是 计算机视觉(computer vision) 与 深度学习(deep

站在风口上,猪都能飞起来。但关键是下一个风口会在哪里?不同的人肯定有不同的看法,比尔·盖茨给出的答案:IT界的下一个大事件是 计算机视觉(computer vision) 与 深度学习(deep learning) 的结合。今年6月中旬访问北京时,他到访的第一家创业公司也是一家计算机视觉的公司。

这家公司就是格灵深瞳,今年6月刚刚获得来自红杉的数千万美元A轮融资。近期,我们也和格灵深瞳的创始人何搏飞聊了下计算机视觉和格灵深瞳正在做的事情。我也把其中很有意思的点也整理了出来。

让计算机可以看懂这个世界

几千年前,人类就已经发明了文字;几百年前,人类已经制造传递了声音;直到最近几十年,人类才发明了动态图片,也就是视频。与文字、声音相比,视频承载了更丰富的信息量。要完全提取、“读懂” 视频里的信息量,即使对人来说,也都不是一件容易事。试想下,当玩着手机去看电视时,我们会丢失掉多少信息呢?虽然机器缺少大脑,不会思考,但与人相比,也有计算能力强的优势。如果我们可以教会计算机看懂这个世界,是不是就会有质的改变呢?

那要如何才能教会计算机看这个世界呢?十几年前,学界还专门有场争论。本世纪初,有不少专家认定,凭借着现有的摄像头,加上强大的算法,就能建立起一套完善的计算机视觉机制。当时,还有一些人不这么看,当时还在布朗大学读书的格灵深瞳创始人赵勇,就是其中之一。赵勇他们觉得,我们看到的这个世界是三维的,而传统的计算机视觉机制用到的是二维的摄像头,无法还原这个世界的真实情况,在这个基础上完成的视觉分析,也会大打折扣。这样的想法,在当时看起来离经叛道,十几年后才被业界逐渐认可。

做第一个将计算机视觉商业化的公司

事实上,教机器看懂这个世界,很多年前就有人在做了,只不过采用的是“摄像头+强算法”的理论框架。Google、百度也有在做,但不同的是他们想做的还是搜索、社交。格灵深瞳则想要将计算机视觉商业化。用何搏飞的话说,他们想“做第一个将计算机视觉商业化的公司”。

提到格灵深瞳或者打开他们的官网,好多人估计都会以为这是一家做智能安防摄像头的公司。这个定位只是表象,其实更确切的形容也许是“计算机视觉以及人工智能”,他们想让计算机像人一样主动获取视觉信息并进行精确的实时分析。安防“摄像头”只不过是一个商用的具体表现。

大家都知道,安防是个大市场,这个市场到底有多大呢?我们就来简单的列两个点:(1)去年中国智能手机的销售额是3200亿,而安防设备的销售额则达到了4000亿;(2)杭州最大的公司是阿里,那第二的公司是谁呢,是做安防摄像头的海康威视,已经在深圳上市,市值去年已经接近中兴的两倍。

而如此大的市场,却有两个问题至今没有办法解决,一个就是看不见,一个就是找不到。先来说看见的问题:一个像机场大小的公共场所,摄像头的数量能够达到几万台,而同一时间负责监控视频的安保人员大概也只有几个人;视频监控界往往都采用了视频画面轮播的机制,每过多久自动切换屏幕上显示的监控视频画面;所以,那些真正有信息价值的画面被人看到、注意到的几率就很小很小了。

据说,全球50%的硬盘都用来存储监控视频了,可想而知,监控视频的数量有多大。以北京天安门为例,每天产生的监控视频数据,刻成光盘摞起来,就比埃菲尔铁塔还高。要在全球75%的硬盘或者比埃菲尔铁塔还高的光盘里找出来某一个画面,难度估计不亚于大海捞针吧。

写到这里,估计你就知道格灵深瞳的安防产品能解决什么问题了吧。格灵深瞳通过三维视觉感知技术,实现对人物的精确检测、跟踪,对动作姿态(包括暴力、跌倒等危险行为)和人物运动轨迹(包括越界、逆行、徘徊等可疑轨迹)的检测和分析。在自动场景和人物检测的基础上,自动给安保人员提供预警信号,主动提醒、报告异常,保障安保人员“看得到”。

同时,格灵深瞳通过三维视觉感知技术,抽象出人物的特征,从非时间的维度进行监测、跟踪、搜索,真正做到“找得到”。

今年10月份,他们就要将自己的这套安防产品进行试点布局了。首批试点的会是四大行中的三大行。而之所以会选择银行,何搏飞告诉36氪,是因为他们看中了银行对安防的需求,以及银行安防方案的可复制性。银行是除了政府以外,最大的安防设备采购商,同时也愿意不断增加安防产品的数量。加上国内银监会严格规范了银行的室内布局,这种复制性就会挺高。

让线下零售“电商化”

电子商务兴起,给了商家“精细化”运营的重要数据支撑,对线下零售产生了重大冲击。在零售领域,格灵深瞳也可以通过三维视觉感知技术,对消费者行动轨迹以及行为模式进行检测、跟踪和搜索,精确统计出在设定的热点范围内的客流量、停留时间、行动轨迹、消费者行为,提供客观的消费行为分析数据,帮助传统零售客户转向数据驱动的管理方式,提高商业运营效率,在线下“电商化”。

事实上,除了商超、零售店,每年都会有大量的品牌商,花费重金找咨询公司购买数据和分析报告。在线上,消费者可以很容易打开无数个网页,浏览每一个商品花费的成本很低,但在线下,用户每一个浏览行为、采购行为都是有成本的。因此,格灵深瞳他们统计的数据也就更加珍贵、有意义。

我们的生活会发生什么样的改变

监控摄像头已经潜移默化地融入到了我们生活的方方面面,但事实上这些安防摄像头发挥的作用还很有限。虽然有几千个摄像头,但发生暴乱、扰动时,往往还是依靠现场的人电话报警。在“敌众我寡敌强我弱”完全不占优势的“烧杀抢夺”情境下,普通大众往往会成为无辜的受害者。格灵深瞳的产品里增加了一个很贴心的功能,挥动双手自动报警。如果不考虑安保人员的疏忽、不负责、不行动等因素,也许就能起到一定的保护作用。当这样的设备普及,未来就能很好的起到对犯罪的威慑作用,这才是真正的社会意义所在。

把视野再扩大到个人安全以外的公共安全,格灵深瞳完全可以在此基础上提供更多的产品与解决方案。未来,也许地面上警务人员就可以带上类似Google Glass一样的智能眼镜,实时显示着监控中心传来的画面与位置;天空上则飞行着搭载格灵深瞳产品的无人机,实时根据监控中心视频分析的结构,追踪可疑人物,真正做到无路可逃。

想想这样的世界,很安全,但是否不寒而栗,我们的隐私何在?任何一家做图像分析的公司,估计都绕不开这个难题,格灵深瞳也一样。何搏飞说,他们做的是趋势的研究,不会去精确分析到底是谁。而安全与隐私,何去何从,未来大众肯定会用自己的方式投票。

硬件复兴到底会往哪里去

与何搏飞聊天的时候,我忽然想到了前几天和Makeblock的创始人王建军聊的一个问题,就是硬件复兴到底会往何处去。当时王建军提了一个很有意思的观点,硬件复兴其实是有两个层面的,一个是像可穿戴设备这样的应用层层面,另一个则是像芯片、技术这样的基础层层面。格灵深瞳、诺亦腾这些我们报道过的公司,其实都可以算做这种基础层的公司。

PS:

他们最近也在招聘计算机视觉工程师、软硬件工程师、BD、PR和行政人员,感兴趣的童鞋可投简历至邮箱 (hr@deepglint.com)。

时间: 2024-09-20 00:50:13

让计算机可以看懂这个世界的相关文章

格灵深瞳让计算机看懂这个世界

摘要: 站在风口上,猪都能飞起来.但关键是下一个风口会在哪里?不同的人肯定有不同的看法,比尔盖茨给出的答案:IT界的下一个大事件是 计算机视觉(computer vision) 与 深度学习(deep 站在风口上,猪都能飞起来.但关键是下一个风口会在哪里?不同的人肯定有不同的看法,比尔·盖茨给出的答案:IT界的下一个大事件是 计算机视觉(computer vision) 与 深度学习(deep learning) 的结合.今年6月中旬访问北京时,他到访的第一家创业公司也是一家计算机视觉的公司.

让冰冷的机器看懂这个多彩的世界

从茹毛饮血的蛮荒,到钢筋水泥的城市,人类逐步将自身能力投射到计算机上.无论是计算能力,还是记忆能力,计算机的如今表现都堪称卓越.但仅拥有这些还远远不够,我们期待计算机可以做得更多.一部风靡全球<星际穿越>激起了无数人对探索浩瀚宇宙奥秘的渴望,也让许多人记住了Tars这个聪明可爱.幽默风趣的智能机器人.人工智能主题的好莱坞电影一直广受影迷们的喜爱,人类用无尽的想象力和炫目的特技构筑了一个又一个无比精彩的未来世界,令人如痴如醉.不过,回到现实,计算机科学家们的行动力却看似远远赶不上电影艺术家们的想

WCTF世界黑客大师赛,你看懂了多少?

本文讲的是WCTF世界黑客大师赛,你看懂了多少?, 由360Vulcan团队组织创办的WCTF世界黑客大师赛正在北京丽都皇冠酒店举行,这是一场立足于高水平技术对抗和交流的黑客大赛,2016年首次举办便在业内赢得了一致好评.嘶吼编辑第一时间深入会场,详细了解了本届参赛队伍实力背景,由衷的感叹,一年更比一年强. 今年,360Vulcan团队邀请了来自美国.中国.法国.瑞士.俄罗斯.波兰.乌克兰.匈牙利.伊朗.日本的最强战队.现场共有13支队伍参赛,其中8支战队位列全球CTF排行榜前十强. WCTF参

让世界都能看懂你的Feed

作为http://www.aliyun.com/zixun/aggregation/33803.html">Blogger,把自己的Blog翻译成其它语言能够获得更多来自不同文化的读者:而对于你那些来自海外的读者来说,能用他们的母语来阅读你的文章,也会更加的方便.我们已经有很多可以方便翻译整个网页的工具或服务,比如Windows Live Translate或者Google Translate. 但是,作为最重要的Blog阅读方式,我们如何实现对RSS Feed的翻译呢?FeedLangu

人性的真相 - 看懂了这些图,你就看懂了整个世界

class="post_content" itemprop="articleBody"> 究竟是社会太复杂,还是生活在这个社会的我们太复杂?总觉得有太多东西会干扰和诱惑我们,然后就会迷失了自己.虽然有时你会觉得世界很残酷的,但请别失去希望与勇气.谁也没权利夺走别人幸福的权利,只有自己放弃而已-- 看懂了这些图你就看懂了整个世界 男人眼中只有女人的下半身 面具人生 男人被束缚了自由,女人对他即使再好,他也厌烦 你们当初剪下我的翅膀,如今却要我飞翔 安逸使人死亡

【AI+娱乐】一图看懂爱奇艺大脑增强版,智能视频峰会有AI更有爱

深度学习和强化学习在视频领域的应用会是下一个AI热点,情感计算会让智能视频的世界更有温度,爱奇艺世界未来有AI更有爱.--新智元创始人杨静 6月9日,爱奇艺世界·大会第二天,聚焦探讨AI与娱乐深度融合.相互激发的智能视频高峰论坛盛大开幕,爱奇艺CTO汤兴博士.杜比实验室全球高级副总裁John Couling.北京电影学院未来影像高精尖创新中心首席科学家.山东大学计算机学院院长陈宝权博士.英特尔中国研究院院长宋继强博士.中影国际文化传媒公司董事长.CEO唐季礼.新智元创始人杨静等业界专家.企业家共

十分钟看懂图像语义分割技术

大多数人接触 "语义" 都是在和文字相关的领域,或语音识别,期望机器能够识别你发出去的消息或简短的语音,然后给予你适当的反馈和回复.嗯,看到这里你应该已经猜到了,图像领域也是存在 "语义" 的. 今天是 AI 大热年,很多人都关注与机器人的语音交互,可是有没有想过,将来的机器人如果不能通过图像来识别主人,家里的物品.宠物,那该多没意思.说近一些,假如扫地机器人能够机智地绕开你丢在地上的臭袜子而扫走旁边的纸屑,一定能为你的生活解决不少麻烦. 没错,图像语义分割是 AI

DT科技评论第20期:IBM Watson采用 GPUs 分布式网络看懂图片内涵

DT科技评论 Data Technology Review 第 20 期           人民网研究院,阿里云研究中心 本期目录 英国政府发布人工智能报告 世界首例无创脑机接口 本田拟与谷歌共同研发完全自动驾驶汽车 微软高管:用身份,威胁情报驱动公司安全策略 人工智能助力锂电池技术 微软获得美国国防部9.27亿美元技术支持合同 IBM Watson采用 GPUs 分布式网络看懂图片内涵 三星新的Gear VR将很快推出 从科技巨头专利申请看发展趋势 思科与印度宣布在印度加强网络安全的投资 人

斯坦福项目NeutralTalk:让电脑像人一样看懂照片

到目前为止,人类还没能设计出一个有知觉的人工智能,至少就我们所知还没有.但是人类在人工智能之路上从未停下脚步,我们正在帮助机器逐渐看见.看懂.理解这个世界.上个月,Google展示了其开发的Deep Dream眼中的世界,这些抽象的图片看起来甚是诡异.而斯坦福大学的一个科学家团队也有一个类似的项目:NeutralTalk,这个程序能够通过对图像进行分析,然后用语言对图像中的信息进行描述. 该项目去年就公布了,主要的开发者是斯坦福大学人工智能实验室主任Fei-Fei Li和他的研究生学生Andre