当机器学习遇上计算机视觉

计算机视觉在上一个世纪60年代脱胎于人工智能与认知神经科学,旨在通过设计算法来让计算机自动理解图像的内容。为了“解决”机器视觉的问题,1966年,在麻省理工学院,这个问题作为一个夏季项目被提出,但是人们很快发现要解决这个问题可能还需要更长时间。在50年后的今天,一般的图像理解任务仍旧是不能得到完美解决。但是也已取得显著进展,并且随着机器视觉算法商业化的成功,机器视觉产品已经开始拥有广泛的用户,包括图像分割(例如微软office中去除图片背景的功能)、图像检索、人脸检测对焦和Kinect的人体运动捕捉等。几乎可以确定的是机器视觉最近的突飞猛进主要得益于最近15到20年机器学习领域的快速发展。

本主题的第一篇文章主要是探索一下机器视觉所面临的挑战和介绍一个非常重要的机器学习技术——像素级分类决策树算法。

图像分类

想像一下并试着回答下面这个有关图像分类的问题:“在这张图片中有一辆汽车吗”。对于计算机来说,一张图片仅仅是由三原色(红、绿、蓝)构成的像素组成的格子,三原色中每一个颜色通道的值的范围都是0到255。这些值的改变不仅依赖于事物对象是否在图片中呈现,也依赖于一些干扰事件,比如摄像机的视角、灯光条件、背景和对象的形态。另外,一个必须处理的问题是不同类别的汽车呈现不同的形状。例如,这辆汽车可能是辆旅行车、或者小卡车、或者是辆跑车,这些都会对图片像素造成很大影响。

幸运的是监督机器学习算法提供了替代原本需要人工编码解决这些多可能性的问题的方式。通过收集图片的训练集和适当的人工标记每一张训练图片,我们能够使用最好的机器学习算法找到哪些像素模式是同要识别的对象相关的以及哪些是干扰因素产生的。我们希望我们的算法最终能够适用于识别以前没有经过训练的新的样本,并且对于噪声保持不变性。在新的机器视觉算法的发展和数据集的收集标注两个方面我们都取得了长足的进步。

像素级分类决策树算法

图片在很多层面上包含细节。就像前面我们提到的,我们可以问一个问题——在整张图片中是否有一个特定的对象类别(比如汽车)。现在我们可以问一个更难点的问题——这张图里都包含了什么,这就变成了一个著名的问题“图像语义分割”:提取图片场景中所有的对象。例如下面街道场景的图片

你可以想象一下,这可以用于帮助你有选择的编辑一些照片,或者用于拼接一张全新的照片;我们还能马上想出更多的应用场景。

解决语义分割问题可以有很多方法,但是一个最有效的算法是像素级分类:训练一个分类器在像素级别预测每一个对象(如汽车、街道、树、墙等)分布情况。这个任务带给机器学习一些计算问题,特别是图片包括很多的像素的时候(例如,诺基亚1020智能手机拍照的像素是4100万像素)。这就意味着整个运算时间是我们分类任务全部训练和测试样本图片乘以几百万的倍数。

这个问题的规模促使我们寻找一个更有效的分类模型——决策树(也称为随机树或随机决策树)。一个决策树是一个分离训练后的决策树的集合,如下图所示。

每一决策树都有一个根节点,多个内部“分支”节点,和多个叶子节点。测试分类时,从根节点开始,并且计算二叉“分支函数”,这个函数可能就像“这个像素是否比它的邻域像素更红”一样简单。根据该二元决策,它将沿分支向左或向右,接下来查看下一个“分支函数”,一直重复这样的操作。当最终达到叶子节点,一个存储的预测——通常是一个包含类别标签的直方图——就是输出(你也可以去看一下ChrisBurges最近的一篇非常出色的论文,是关于提升变种决策树在搜索排名中的应用)。

决策树的美在于他的执行效率:虽然从根节点到叶子节点包含指数级可能的路径,但是任意一个独立的测试像素仅仅通过一个路经。此外,分支函数的计算是以此前的事件为条件的:例如,分类器只需要依赖此前分支决策的答案提出正确的问题就行了。这很像“20问”游戏:当你仅被允许去问少量问题时,你可以很快学会根据你以前问题的答案来调整自己要提出的下一个问题。

有了这项技术,我们已经能够成功处理这些不同的问题,如照片的语义分割,街头的场景分割,人体解剖学的3D医学扫描图像分割,摄像头的重定位和使用Kinect深度摄像头对人体身体部位的划分。对于Kinect来讲,决策树测试时间效率是关键:我们有一个非常严格的计算预算,但是这样的计算要求搭配XboxGPU并行处理像素的能力,意味着我们能够适应这种应用场景。

深层神经网络

在过去的几年里,我们视觉研究者所使用的测试数据集无论在质量上,还是数量上都有了快速的提高。这些进步在很大程度归因于吸收了众包的成果。众包项目允许我们把数百万张已标记图像加入测试数据集。其中一个最具挑战性的测试数据集ImageNet,就包含了数万个种类、超过百万张已标注层次的图像。

然而多年来,对ImageNet测试数据集的识别工作进展较缓慢,直到2012年,Krizhevsky等人的成果震惊了业界。他们使用通用GPU配合一些看似细微的算法改进,从而更深层次地训练卷积神经网络。最终,他们在ImageNet的1000个分类测试中显著提升了图像分类的准确性。这项成果还赢得了大众媒体的关注,甚至导致相关的初创公司被大笔收购。自从那以后,“深度学习”开始成为计算机视觉领域的热门话题,而最近发表的文章也开始涵盖到物体定位、脸部识别和人体姿势识别等与“深度学习”息息相关的内容。

展望未来

深度卷积网络毫无疑问是相当强大的,然而它真的能解决计算机视觉领域的一切问题吗?可以肯定的是,它还会继续火热下去并且推动业界未来几年的发展,同时我们也相信未来还会有新的突破性进展。谁也说不准会有哪些突破,但我们会为你预测一些我们认为很有可能实现的突破点:

语义分析:以上的网络模型只能学会理解图像内容的表意,而不能深入理解图像中各个物体、物体之间如何相互联系以及特定物体在生活情景中的作用,例如我们不能轻率地根据头发看起来会有点光泽,和他们拿着电吹风这一事实,很有把握地推断他们的头发是湿的。像微软CoCo这样的新型测试数据集就可以帮助增强语义分析。该数据集对抽象图像提供非常详尽的分类标注,例如包含多个主体的图像会被标记出不重要的部分。

运行效率:虽然对测试图片的深度网络评估过程可以通过并行计算来加速,但是神经网络的构造并没有在上一篇中提及的逻辑运算概念:每一个训练样例必须通过遍历网络中的所有节点来输出结果。再者,即使配备高速的GPU,训练网络也要花费数天甚至数周,这使得深度网络不能快速投入试用。

结构学习:经过多年的研究发展,深度卷积网络现在拥有一个设计完善、相对死板的结构。也就是说,改变某一层大小或层级的数量会对模型做出预测的能力产生不良影响。除了简单粗暴地输入特定参数来最优化网络的形态,我们希望可以真正地直接从数据中学习出更加灵活的网络结构。

近年来,我们已经开始寻找突破这些瓶颈的方案。现在,我们很高兴能向你推荐我们最新的成果,决策丛林模型:根部相连接的决策有向无环图。你可以认为决策有向无环图是子节点相通的决策树,因此一个子节点可以存在多个父节点。我们不但证明了这种模型在内存消耗上比决策树降低了一个数量级,同时还能大大提高模型的泛化能力。有向无环图起初看起来很像神经网络,但是有两个重要的不同点:第一,其结构和模型参数都是从数据中学习而来的;第二,有向无环图保留了决策树中高效的逻辑运算:一个测试样例只沿着有向无环图的一条路径传递,而不是像神经网络一样遍历所有节点。我们正在积极尝试结合其他深度学习的形态,譬如结果的复用和树节点的纠缠,使得决策丛林能够真正有效地替代深度神经网络。

如果你对运用决策丛林模型解决问题感兴趣,Azure机器学习云平台中的Gemini模块将能带你探索得更深入。

总的来说,计算机视觉的前途一片光明,其中很大程度归功于机器学习。即便近年来视觉领域的快速发展已经让人难以置信了,但我们认为计算机视觉的研究未来还会震惊世界。

原文发布时间为:2015-03-09

时间: 2024-08-15 01:52:12

当机器学习遇上计算机视觉的相关文章

叶炜晨:视频遇上大数据,会擦出什么火花

文章讲的是叶炜晨:视频遇上大数据,会擦出什么火花,在近期的视频网站大会上,除了"独播"这种老生常谈的话题,大数据名副其实当选为视频网站宣传时最爱的词,爱奇艺也不例外.早在2013年,爱奇艺就着手将大数据"落地",并研发了一套实时数据采集计算的综合解决方案-Venus.实时数据采集对视频行业到底意味着什么?当视频遇上大数据到底会擦出什么样的火花?这些谜题都会由本期采访嘉宾--叶炜晨,一一揭晓. ▲叶炜晨 叶炜晨,毕业于上海交通大学计算机系.2013年加入爱奇艺云平台,

当数据智能遇上工业制造

云栖TechDay第32期,阿里云数据业务总架构师周卫天带来主题是"当数据智能遇上工业制造"的演讲.本文主要从DT时代的开启开始谈起,接着分析了智能工业智能化.融合化和人性化的三大趋势,然后着重分享了阿里工业在智能化.融合化和人性化的实践,包括协鑫光伏实践.货运列车智能故障检测和飞机发动机智能健康管理等案例.   以下是精彩内容整理: DT时代用DT实现DT 用DT来实现DT比较有趣,第一个DT代表数据的技术,第二个DT代表数字化的转型.当数据智能碰到工业制造的时候,根据我自己的一些观

当设计遇上AI

2017年2月22日云栖TechDay29期,淘宝高级交互设计专家乐乘带来题为"当设计遇上AI"的演讲.本文主要从多维.闭环.在线的设计数据化开始谈起,接着着重分析了设计智能化,包括走过的坑以及设计智能的四个步骤,最后对设计跨界AI进行了分析总结. 伴随着数据的爆发和算法技术的进步,人工智能势必给各行各业带来深远变革.设计这个行业兼具艺术的感性和商业的理性,它与人工智能可以碰撞出什么样的火花呢?下面我们来一起聊聊在阿里电商平台上用人工智能做设计的探索和思考. 以下是精彩分享整理: 阿里

宜信大数据负责人Joyce:当金融遇上大数据,能擦出什么火花

ZDNet至顶网软件频道消息: 这两年,互联网金融的成长速度让一些不可一世的传统金融巨人也不禁打了个冷战.倒不是因为互联网金融业务的规模真的威胁到了传统金融,而是伴随它而来的这股创新力量让传统金融行业中存在的问题和局限性暴露无余.所幸,已经有一些人开始意识到问题的紧迫性,当然,还有问题背后所蕴藏的巨大机遇. Joyce Zhang 就是这些人中的一个.Joyce 是宜信 CEO 唐宁从美国挖来的一位资深大数据专家,现在担任宜信大数据创新中心的总经理.在来宜信之前,Joyce 曾经服务过 Hulu

当CRM遇上AI,销售将不再不易!

文章讲的是当CRM遇上AI,销售将不再不易!"您好,我们现在这里有一份理财产品您有兴趣了解下吗?" "滚!没兴趣!" "大哥,您对投资楼盘有兴趣吗?" "没钱!" "大哥,我xxx中介的,您的房子考虑出租或者出售吗?" "不考虑,你是怎么知道我的电话?" 以上场景,相信所有人都曾经亲历过,电话销售,是以电话为主要沟通手段,完成公司产品推介.咨询.报价.以及产品成交条件确认等主要营销过程的

当人工智能遇上大数据 第九届中国云计算大会——大数据与人工智能应用论坛吸睛亮点集结

至顶网个人商用频道 06月10日 北京消息(文/黄雅琦)科技正在进入一个新的时代,这个时代的一个典型特征就是数据成为一种宝贵的资产.在海量的数据支撑之下科技越来越智能,不仅能"听懂"我们的语言,还能"看懂"我们的表情,帮我们做出更为科学的决策.在这些科技进步的背后离不开数据处理技术的飞速发展,从商业智能.大数据到人工智能,人类对数据的处理能力不断提升,数据背后的商业价值在不断发掘,也给人类更大的帮助. 基于这样背景,第九届中国云计算大会将在6月14日-16日在北京国

宜信大数据负责人Joyce:当金融遇上大数据

这两年,互联网金融的成长速度让一些不可一世的传统金融巨人也不禁打了个冷战.倒不是因为互联网金融业务的规模真的威胁到了传统金融,而是伴随它而来的这股创新力量让传统金融行业中存在的问题和局限性暴露无遗.所幸,已经有一些人开始意识到问题的紧迫性,当然,还有问题背后所蕴藏的巨大机遇. Joyce Zhang 就是这些人中的一个.Joyce 是宜信 CEO 唐宁从美国挖来的一位资深大数据专家,现在担任宜信大数据创新中心的总经理.在来宜信之前,Joyce 曾经服务过 Hulu.Microsoft 等公司,主

当 App Store 遇上电视,开发者的第四代 Apple TV 开箱体验

当 App Store 遇上电视,开发者的第四代 Apple TV 开箱体验 引子 2015 年 9 月,San Francisco.今年接近 100 华氏度的气温要比往年都更热,而 Apple 例行的秋季发布会也如期在这里举行.自从 iPhone 一战成名后,每年的 iPhone 旗舰机型都是移动通讯设备的业界标杆.而今年秋季发布会大家也自然地将重点放在了最新的 iPhone 6s 上.手机乏善可陈,除了硬件参数的一些常规升级外,我们并没有看到 iPhone 有多大进步.不过这也是大家预料之中

当草根站长遇上品牌运营公司时

笔者最近在优化一个汽车车位锁网站,关键词竞争度倒是不大,当笔者一查几个竞争对手时,发现除了有几个厂家外,居然还有一个品牌运营公司.当草根站长遇上团队作战,经验丰富的品牌运营公司时,笔者是如下分析与制定计划的. 一.网站整体分析 遇上车位锁品牌运营公司,笔者觉得分析网站不能只分析简单的seo数据.应该从网站设计与布局,流量导入,口碑营销与社会化营销等诸多分析. 1.网站结构与设计 该品牌运营公司的网站结构简单,设计简洁大气,也符合该公司定位中高端车位地锁用户.实际上,笔者公司也曾请人模仿了该站,但