AI|揭秘阿里视觉计算团队:用机器替代人眼看透照片视频的秘密

用机器替代人眼看透照片视频的秘密

2016年初,华先胜加入阿里云并创立视觉计算团队,负责云上的视频图像智能分析、识别、搜索、生成和挖掘服务。2017年的春节前夕,阿里巴巴公布了2016年第三季度财报,其中阿里云计算业务本季营收为17.64亿元,同比增长115%,付费用户数量达到76.5万,同比增长100%——这已经是阿里云营收连续第7个季度保持100%以上的增幅了。2016年10月,阿里云计算项目“城市大脑”在杭州上线测试,通过接入交通监控视频等数据收集,对整个城市进行全局实时分析,自动调配公共资源,最终将进化成为能够治理城市的超级人工智能。

如果说人工智能=数据+算法,那么大数据与云计算则可以称得上是人工智能的底层架构了。根据IEEE 院士、阿里云计算机视觉科学家华先胜博士介绍,目前,阿里云针对人工智能的发力点集中在计算机视觉、智能语音交互、和数据智能应用这三方面。而随着近年来计算机视觉领域在深度学习方面陆续取得突破性成果,计算机视觉成了阿里云的首要落地技术之一。

(IEEE 院士、阿里云计算机视觉科学家华先胜博士)

云计算、计算机视觉……啥?

云计算的概念就像人工智能一样广泛而模糊,简单来说,云计算平台的服务模式分为三类:SaaS(CRM、Email、在线游戏等)、PaaS(数据库,Web服务器、开发工具等)、IaaS(网络带宽、服务器、储存空间等)用户不再需要将资源下载到电脑里,只需要接入网络便可享受网络服务。

计算机视觉则属于人工智能学科的一部分,可以理解为用机器替代人眼,其中涵盖了图像与视频的分析、目标的检测与分割、人脸识别、物体识别、目标跟踪、视觉搜索等,背后需要强力的视觉算法支持。近年来,由于深度学习的兴起,以及计算机视觉技术利用深度学习,在人脸识别、物品识别等方面取得不少成就,近来声名鹊起的谷歌首席科学家李飞飞的研究领域之一便是计算机视觉,全球最大的图像识别数据库ImageNet也是由她参与创建。

“城市大脑”的诞生

2015年,曾于微软任职14年的华先胜博士加入阿里巴巴,负责电商图片搜索引擎优化,最终的落地产品为应用在淘宝、天猫APP上的“拍立淘”——用户用手机拍摄物品照片后,便可以搜索相同或者相似的商品。2016年初,华先胜加入阿里云并创立视觉计算团队,负责云上的视频图像智能分析、识别、搜索、生成和挖掘服务。据华博士介绍,类似“拍立淘”、人脸识别“虚拟试妆”的电商相关项目由集团内部团队负责,阿里云主要还是负责对外业务,比如交通、安全、广告、工业等方面的应用。

2016年10月,阿里云计算的重要项目“城市大脑”在杭州上线测试,相似的技术也被阿里云应用在广州。“城市大脑”项目主要技术落点在于:

  1. 大规模视频分析处理。依靠阿里云的计算平台+视频分析特点,构建大规模视频分析平台,对整个城市交通状况有全面清晰透彻的了解。
  2. 城市图搜。将电商的图片搜索技术延伸到城市场景里来,完成城市索引。比如公安部门可接入系统,进行特定车辆类型、车牌的跟踪搜索。
  3. 交通监测。除了基本的城市观察(车流、人流)外,还可以检测车辆转向、速度、属性,同时监测公开场景下的特殊事件监测识别:车牌追踪监控、交通事故、违章停车、横穿马路等。
  4. 交通模型建立与交通优化。挖掘大量数据间的关系,发现规律,发现相互制约性。通过对交通、车牌、车型等数据的实时理解分析,判别交通流量,优化调整信号灯等。既可以周一到周日一次性离线优化,又可以在遇到交通事故、车流拥堵时进行实时调控,管控红绿灯。

一方面,并且由于城市监控摄像头数量众多,产生的视频数据量巨大,计算消耗大、吞吐量大,城市大脑需要在可控成本下提供大规模计算能力,并且保证计算效率——计算平台需要“吃得进去”,并且“消化的了”。据华博士所言,阿里的“飞天”云计算平台是一套超级计算机系统,拥有百万CPU合数,60万块硬盘支持。

另一方面,由于视频处理具有时空相关性:时间相关性,每一帧图像都依赖于先前的相关图像;空间相关性,交通场景下当前视频需要跟其他视频合在一起作决策。因此在视频处理时需要针对时空相关性优化算法研究,提升计算效率。

数据红利与算法优势逐渐减少,深耕行业,建立优秀商业模式

华博士认为,现在很多人工智能公司是以算法起家的,但是算法间的差异可能会越来越小,再加之基于深度学习的方法、各类开源算法的出现,内行高手之间算法差异不会有太大。比如ImageNet的图像识别大赛中,优胜者最后的数据差距都在小数点以后,虽然是真实场景下还是有差异,但是磨练起来将会逐渐减少,甚至包括数据差异也会越来越少,数据先发红利也会逐渐减少。

而除了算法以外,一个优秀的商业应用场景对于人工智能公司来说也同等重要。一个好的AI商业应用需要兼顾算法、数据、用户、平台、商业模式这五大方面。这五点虽然同维,但不同商业应用有不同侧重。对于人工智能公司来说,需要认真思考有没有好的商业应用、有没有真正深入行业产生价值、是否具备这五个基本要素是否都具备。

目前,人工智能已经在金融的人脸识别方面开始应用,安防、交通、工业也已经开始初步应用。设备端AI工具、智能陪伴、机器人、智能冰箱等,包括运用AI优化的搜索引擎,虽然听起来并不像“阿法狗”那样高级,但人工智能已经渗入到我们生活方方面面。

结语:AI时代的“基础设施”

阿里云的智能语音识别、图像搜索、人脸识别等相关的热弄智能技术都是从阿里内部的技术团队孵化而来,原本服务于电商体系,后续转移到阿里云计算平台体系上,配合搭建云计算生态,开放API,寻求合作伙伴。这一点与苹果、安卓搭建好操作系统后,各类APP陆续入驻类似。

阿里云的强大计算能力是无数中小企业无法企及的,但通过开放云计算平台,阿里云的用户获得了人工智能服务的能力,阿里巴巴也继续占据入口,试图成为AI时代的“基础设施”。


来源:智东西 作者:Lina

原文链接

时间: 2024-10-14 07:34:11

AI|揭秘阿里视觉计算团队:用机器替代人眼看透照片视频的秘密的相关文章

2017双11技术揭秘—阿里数据库计算存储分离与离在线混布

作者:吕建枢(吕健) 背景 随着阿里集团电商.物流.大文娱等业务的蓬勃发展,数据库实例以及数据存储规模不断增长,在传统基于单机的运维以及管理模式下,遇到非常多的困难与挑战,主要归结为: 机型采购与预算问题在单机模式下计算资源(CPU和内存)与存储资源(主要为磁盘或者SSD)存在着不可调和的冲突:计算与存储资源绑定紧密,无法进行单独预算.数据库存储时,要么计算资源达到瓶颈,要么是存储单机存储容量不足.这种绑定模式下,注定了有一种资源必须是浪费的. 调度效率问题在计算与存储绑定的情况下,计算资源无法

阿里iDST视觉计算负责人华先胜:算法和数据并非AI公司成功的全部

雷锋网按:本文根据2月27日阿里云视觉计算团队负责人华先胜的视频采访整理而来. 华先胜,北京大学应用数学博士.IEEE Fellow.ACM2015年度杰出科学家.MIT TR全球35位35岁以下的杰出青年创新人物,曾担任ACM Multimedia等大会程序委员会主席,是视觉识别和搜索领域的国际级权威学者.于2016年7月加入阿里云人工智能研究机构iDST科学家团队,带领阿里云视觉计算团队的研发工作. 问:阿里云视觉计算团队,目前有哪些突破性新进展? 我在2015年加入阿里,之前在微软待了14

女工程师独家揭秘:双11秘密武器阿里云数据库团队故事

据说,这个世界上有两类珍稀物种: 1 大熊猫 2 美女DBA DBA 即数据库管理员,需要广泛的数据库.业务.系统和网络知识:心细如发,善于沟通的性格:和7*24小时待命,火线解决问题的意志. 外人看似闲庭信步:自己人才知万丈深坑.因此挡住了很多女DBA 升级打怪之路. 阿里云数据库,一直被模仿,从未被超越.聚集了全球最顶尖的数据库专家.不是精英不聚头,在最顶级的数据库团队,从事专家服务的女DBA,会是什么感觉? 她和数据库团队同事又有哪些故事? 双十一临近,我们有幸采访到阿里云数据库团队的凌洛

专访阿里巴巴魏虎:揭秘阿里双11背后的全站个性化&商铺千人千面

12月6日-7日,由阿里巴巴集团.阿里巴巴技术发展部.阿里云联合主办,以"2016双11技术创新"为主题的阿里巴巴技术论坛(Alibaba Technology Forum,ATF)将在线举办.(https://yq.aliyun.com/promotion/139)12月7日晚20:00,来自阿里巴巴的资深技术专家魏虎将在在线论坛上发表<数据赋能商家背后的AI技术>的演讲. 系列文章陆续发布: 专访阿里巴巴徐盈辉:深度学习和强化学习技术首次在双11中的大规模应用 专访阿里

揭秘 | 阿里云为什么能入选Gartner魔力象限

日前,研究机构Gartner公布了2015年全球公共云存储服务魔力象限. 阿里云入围全球TOP5厂商之列,成为首家入选的中国云服务商. Gartner是全球权威的IT市场研究与顾问咨询公司,成立以来专注IT产业研究. 魔力象限全称是Gartner定期发布的企业学习系统魔力象限(MagicQuadrant). 该图通常从前瞻性(Completeness of Vision)和执行能力(Ability to Execute)两个方面来评估各个领域的IT厂商. 核心观点 为什么阿里云此次能够入选?CS

阿里大规模计算平台的自动化、精细化运维之路

本文转载于:高效运维公众号 作者:范伦挺 作者简介: 范伦挺,阿里巴巴 基础架构事业群-技术专家.花名萧一,2010年加入阿里巴巴,现任阿里巴巴集团大数据计算平台运维负责人.团队主要负责阿里巴巴各类离在线大数据计算平台(如MaxCompute.AnalyticDB.StreamCompute等)的运维.架构优化及容量管理等 1.前言 本文主要会从以下四个方面来写,分别是: 阿里大规模计算平台运维面临的一些挑战: 阿里自动化平台建设: 数据精细化运维: 我对运维转型的思考和理解: 2.在阿里我们面

阿里巴巴“NASA计划”新进展:刷新视觉计算世界纪录

5月18日,全球权威机器视觉算法测评平台KITTI的世界纪录再此被刷新.来自中国的科技公司阿里云将其车辆检测的准确率拉升至90.46%.车辆检测被认为是实现无人驾驶的关键技术,极具挑战. 据了解,此次重大技术突破是由阿里巴巴iDST视觉计算研究员华先胜领导的团队完成.他们提出了基于区域融合决策和上下文相关的多任务深度神经网络,用于复杂场景下的车辆检测任务,重点解决其中多视角,多姿态以及车辆遮挡等问题. 在网络结构设计上,团队利用反卷积操作提高了小目标的召回率,同时拼接了多层特征以融合低层的局部信

时代给我们机会 ATF揭秘阿里世界级创新

本文讲的是时代给我们机会 ATF揭秘阿里世界级创新"阿里上个财年中国电商平台零售额突破3万亿元人民币并超过沃尔玛,这意味着一家中国互联网企业超越了一家代表工业时代最高成就的美国企业."4月16日在北京清华大学,阿里巴巴技术委员会主席王坚在出席ATF面对1500名在场学生时说,"时代给了我们巨大的机会,让技术可以为全人类服务." ATF(AlibabaTechnologyForum)系阿里巴巴技术论坛,是阿里每年面向高校学生最重要的技术盛会,此前曾在斯坦福大学.香港科

【新智元专访】 阿里巴巴“NASA计划”新进展:刷新视觉计算世界纪录

5月18日,机器视觉算法测评平台KITTI的世界纪录再次被刷新--阿里云将其车辆检测的准确率拉升至90.46%.车辆检测被认为是实现无人驾驶的关键技术,极具挑战. 该成果公布后,新智元第一时间采访到了华先胜,解读他们所提出的基于区域融合决策和上下文相关的多任务深度神经网络.另外,就准确率上的疑惑.GAN思想的应用等问题,华先胜也与新智元进行了分享. 在这次比赛中,他们提出了基于区域融合决策和上下文相关的多任务深度神经网络,用于复杂场景下的车辆检测任务,重点解决其中多视角,多姿态以及车辆遮挡等问题