阿里云智能视觉首席研究员华先胜:视觉大数据智能分析、识别和搜索

What’s Happening

从智能交通到教室监控再到视频直播等等场景,生活中每天都在产生海量的图像/视频数据。在这些场景中,对图像/视频数据进行智能分析、挖掘其中的内容以及对其中的事件进行实时的分析并非易事。

图一 视觉智能 

视觉智能发展朝向两个方向:云上智能和端上智能。云上的智能是指复杂的计算是在云上完成;端上智能则是在终端完成的,例如手机或摄像机本身自带的计算能力、自动驾驶等等。

云上智能除了单体的智能之外,还存在着整体的智能,也就是说也可以把大量数据放在一起进行计算、分析,然后挖掘更深层次的价值。

图二 云上智能的五要素 

算法、平台、数据、用户、商业五大要素构成了云上智能。其中平台提供强大的计算能力,用于支撑图像视频分析算法;大量的数据保障智能算法的优越性能;用户既是算法的消费者,也是数据和算法准确率的贡献者;此外,好的商业模式才能让视觉应用长久地发展。

图三 视觉智能计算主要技术方向 

上图简要地概括了视觉计算技术的几大方向:第一是视频图像分析识别,主要是对视频或图像进行分割、检测、识别和跟踪等;第二个方向是视觉搜索,主要包含特征学习、索引、排序等;第三个方向是视频图像生成,主要是图像视频的生成、场景和物体的3D建模等;第四个方向是大规模视觉计算平台。

图四 搜索和识别的关系 

除视觉生成外,视觉计算技术从算法的角度来看核心可以总结为:搜索和识别。搜索和识别两者本身就具有相关性:现在的图像搜索离不开必要的识别,而识别任务在很多场景中,尤其是数据量非常大的场景中,是需要通过搜索来完成的。

 

视觉搜索和识别之进展

图五 视觉搜索技术的发展历程 

视觉搜索起源于上世纪九十年代,最初仅是在几千幅图中检索相似的图片;在2007年左右,才出现了基于内容的互联网图像搜索系统,实现了索引大数图像数据的问题,但还是没有正真解决两幅图像比较这一难题;在2012年左右,深度学习的出现才基本解决了图像内容比较的难题(通过深度学习提取图像的描述特征)。

 

搜索、识别之关键技术

图六 视觉搜索、识别系统的关键要求 

一个真实世界的视觉搜索系统必须满足相关性、覆盖率、伸缩性、用户体验四个方面的要素才能真正地为大众所用。

  •  相关性是指搜索的结果和搜索的目标是视觉语义相关的;
  •  覆盖率是指无论搜索什么物品,都能得到一个合理的结果。
  •  伸缩性是指系统具有处理大量数据和大量搜索请求的能力;
  •  用户体验更多地体现在用户界面的设计,也通常用来弥补算法的不足。

图七 真实世界中的视觉识别和搜索面临的挑战和机遇 

真实世界中的视觉识别和搜索面临着大量的挑战:

  •  用户对相关性/准确率的期望更高;
  •  用户对覆盖率的期望更高;
  •  输入视觉信号质量变化大;
  •  系统性能要求很高;
  •  有具体的衡量标准(能不能满足用户的需求,用户是否用他来购买商品)。

今天,在面对大量的挑战的同时,也拥有着更多的机会:首先,几乎所有的手机都具有相机,使得视觉搜索的入口十分便捷;其次,大数据分析平台的出现使得我们具有计算、处理大数据的能力;此外深度学习技术的出现以及大量的图像视频数据和大量的用户推动着视觉识别和搜索技术的发展。

图八 相关性:分类/识别 

以电商图像搜索为例,简单介绍下相关性的要求:当获得一张图片时,首先需要知道该图片所代表的含义,并将其进行分类。尽管这时分类类目的数量相对较少,但这一步对准确率的要求非常之高。

图九 相关性:主体检测

第二点是主体检测,经过主体检测,找出用户搜索所关注的重点,则图像中背景的影响就会大大减少。

第三点图像特征,学习和描述图像中的特征,通过数字将物品的特点表现出来,便于利用特征搜索获得最终的结果。常见的图像特征包括:深度学习特征和图像局部特征。

 

视觉大数据之分析平台

对大数据而言,比如有上万路的视频数据或上百亿图像信号需要处理时,则需要结合阿里云计算平台。MaxCompute是阿里云已有的计算平台,我们将该平台与视觉计算的能力结合在一起,使得该平台有能力处理大量的视频数据。

 

图十 大规模离线视觉分析平台 

对于大规模离线视觉分析:几千路视频首先进行解码,将其分割成视频帧或视频片段,然后在视频帧或视频片段上进行检测/分析,提取出视频帧特征列表,再经过后处理(跟踪、计数、事件等等),最终输出结果,整个过程的计算任务全部在大规模离线计算平台上完成。

 

图十一 大规模在线视觉分析平台

由于很多视频应用是在线的,有着大量的实时要求,例如智能交通指挥等场景。阿里云的StreamCompute计算平台能够提供实时的大数据处理能力,同时能利用时间域的相关性和空间域的相关性得到目标分析结果,便于进行及时决策。

图十二 阿里云眼

结合视觉搜索算法和大数据分析平台形成的阿里云眼(智能视觉云),是阿里云大数据平台上的智能视觉计算中心,目前承载着云上广泛、深入的视频图像的分析、识别、搜索和生成服务。

 

具体案例

目前,视觉识别和搜索在阿里已得到了广泛地应用。

图十三 拍立淘

手机淘宝上的拍立淘功能,通过对拍摄照片的分析,搜索出类似的商品。

图十四 基于视频内容的商品推荐和广告 

上图是通过对电视/电影中商品的搜索分析,找到合适的商品,然后再将该商品定向地进行广告推荐。此外,还可以对视频中场景的分类、事件的分类进行检测跟踪,例如检测到视频中人在打瞌睡,可以定向地投放类似红牛之类的广告。

 

总结

图十五 五大必要因素 

真实世界中的视觉识别和搜索必须将商业、算法、用户、数据、系统五大因素结合在一起,才能真正地弥补目标语义和数据中提取特征之间的鸿沟,使得人工智能真正地大放异彩。

本文根据阿里云智能视觉首席研究员、 IEEE Fellow 、ACM杰出科学家华先胜在8月9日举办的2016云栖大会·北京峰会上的《视觉大数据智能分析、识别和搜索》演讲整理而成。即将在10月13-16日举办的2016杭州云栖大会,也特意开设了“人工智能专场:智,在云端”,交通、物流、海洋渔业等等场景,看人工智能的触角如何在生活中延伸。具体日程如下,精彩不容错过,快速报名!

去年大会距会议开始还有10天,报名就超额导致了提前结束报名,今年大会时下最热的技术分享都已涵盖其中,报名态势十分火爆,极速抢座吧:

抢票入口:https://yunqi.aliyun.com/2016/hangzhou/baoming

大会日程:https://yunqi.aliyun.com/2016/hangzhou/schedule

大会官网:https://yunqi.aliyun.com/

 

时间: 2024-10-16 18:50:38

阿里云智能视觉首席研究员华先胜:视觉大数据智能分析、识别和搜索的相关文章

阿里云:移动互联网、云计算和大数据三位一体

阿里云业务总经理刘松出席"中国互联网20周年高峰论坛"并发表主题演讲. 在中国互联网20周年高峰论坛上,阿里云业务总经理刘松作了题为<阿里云计算驱动互联网与大数据创新>的主题发言并在随后接受了新华网记者的专访.刘松告诉记者,每一个移动APP背后必然有一个大数据能力的云计算承载,移动互联网.云计算和大数据是三位一体的.阿里巴巴作为国内领先的云服务提供商致力于打造公共.开放的,以数据为中心的云计算服务平台. 云计算已经成为互联网业界最炙手可热的领域之一.国外互联网巨头亚马逊正在

IBM 成立大数据智能应用中心

近日,IBM(NYSE: IBM)在厦门举行了主题为"洞察商机,领先一步"的IBM 2014非结构化数据管理用户大会.会上,IBM企业内容管理(Enterprise Content Management,ECM)针对大数据环境下非结构化数据管理的挑战,为核心行业提供了完整的解决方案,并分享了IBM ECM在人力.金融等领域的客户体验.在会上,IBM宣布与合作伙伴美亚柏科信息股份有限公司(以下简称美亚柏科)进行合作,发布大数据智能应用中心.新的大数据智能应用中心,运用IBM在企业内容管理

IBM成立大数据智能应用中心

ZDNet至顶网软件频道消息:IBM在厦门举行了主题为"洞察商机,领先一步"的IBM 2014非结构化数据管理用户大会.会上,IBM企业内容管理(Enterprise Content Management,ECM)针对大数据环境下非结构化数据管理的挑战,为核心行业提供了完整的解决方案,并分享了IBM ECM在人力.金融等领域的客户体验.在会上,IBM宣布与合作伙伴美亚柏科信息股份有限公司(以下简称美亚柏科)进行合作,发布大数据智能应用中心.新的大数据智能应用中心,运用IBM在企业内容管

一图胜千言,阿里云视觉大数据智能计算实践

以下内容根据演讲PPT以及现场分享整理而成. 引言 在大数据世界里面,视觉大数据应该是量级最大的.之前讲的天文的数据量非常大的,但其实天文的数据也是天眼的数据,说到底还是视觉的数据. 视觉智能计算并不是只做简单地进行一些图像视频的处理,而是要通过人工智能和机器学习的方法在数据中去识别.搜索和挖掘其中的价值,使得数据的价值得以体现,让用户对于数据的使用体验更好. 生活中的各种监控以及直播很普及,一个城市可能有多达60万个摄像头,所以产生的视频数据确实非常多.那么该如何处理这么多的数据呢?如何才能发

阿里云闵万里:用多体多能的智能普惠每个人是阿里云的终极目标

10月12日,阿里云机器智能首席科学家闵万里在2017杭州·云栖大会上表示,人工智能以往是单点呈现,未来要做的是串联单点技术,不断进化成多体多能. 闵万里以工业生产为例,假定一条流水线有ABCDEFG环节,产品H.每一个流水线工人的操作都可能有偏差,之后的环节如何实时纠正,最终保证产品的核心H质量稳定.这种协调不是事后的分析,必须依靠在线.实时的反馈,这就是单体单能到多体多能的转变. ET城市大脑在杭州萧山帮助救护车节省50%的时间抵达现场,证明了多体多能的可行性和可达性. 靠救护车鸣笛闯信号灯

看阿里云行业解决方案放大招!助力8大行业玩转双11

阿里云助力8大行业玩转双11 如果你还以为双11是电商行业的专利你就out了!现在各大行业例如移动APP.金融.音视频.医疗.物联网纷纷转型上云,每个行业的业务多种多样,单一云产品已无法满足需求,需要针对业务需求将相关产品打包形成完整的解决方案才行,这一点阿里云就可以做到! 2016年度,阿里云行业运营团队,已联手8大行业的阿里云资深架构师,潜心沉淀架构师十多年的服务行业客户的经验,经历了数月的努力,终于赶在10月份推出全新行业解决方案,用户可以一键下单购买,并贴心的提供了架构师线上咨询的服务,

把服务器泡在液体里散热?阿里云推出黑科技:浸没式液冷数据中心 | 潮科技

这只"麒麟"属水. 把服务器泡在液体里散热?阿里云推出黑科技:浸没式液冷数据中心 | 潮科技数据中心是耗能大户.根据IDC,到2024年数据中心耗电量将占到全社会耗电量的5%以上.其中,散热占到了数据中心非常大比例的电能消耗,有的甚至可以到一半以上. 为了节约散热成本,不少国际互联网巨头,常常会把数据中心建在爱尔兰这种气候阴凉的地方.可是,如果可以服务器直接泡在液体里散热,是不是黑科技? 4月26日的云栖大会·南京峰会上,阿里云展示了全浸没的"凉得快"服务器--麒麟

阿里集团刘冰:未来的时代是大数据时代

文章讲的是阿里集团刘冰:未来的时代是大数据时代, 7月23日上午消息,2015中国互联网大会之国际互联网高峰论坛在北京国际会议中心举行.阿里巴巴集团副总裁刘冰在现场做了主题的演讲. 刘冰表示,未来的时代是大数据时代,大数据就像魔方一样吸引着人类,相信在未来.在中国会产生100个.1000个.甚至10000个超越阿里巴巴的公司. 在其看来,现在我们生活在一个非常好的时代,互联网是基础设施,大数据是战略资源,云计算是核心竞争力. 以下是刘冰演讲全文: 尊敬的卢秘书长,尊敬的各位来宾.各位朋友,大家上

中国东南大数据智能应用峰会将在福州举办

2017年6月16日,以"大数据视野下的数字丝绸之路"为主题的"中国东南大数据智能应用峰会暨数据中国城市行"活动,在福州召开.本次会议由福州市人民政府.中国电子信息产业发展研究院和福建省电子信息(集团)有限责任公司联合主办,中国大数据产业生态联盟.中国东南大数据产业园.中国东南大数据产业联盟.福建省数字福建云计算运营有限公司携手承办. 践行"数字福建" 推动产业集聚发展 十八大以来,党中央.国务院高度重视大数据产业发展和互联网经济创新应用,十八届