《中国人工智能学会通讯》——2.24 结 果

2.24 结 果

我们将人类、BPL 以及其他模型在 5 个概念学习任务上的结果并列进行对比,检验仅从一个或一些样例得到的不同形式的泛化(见图 5 的样例任务)。所有的行为实验都是通过亚马逊土耳其机器人(Mechanical Turk)进行的,实验的详细流程请参考 S5 章节。主要实验结果总结在图 6 中,额外的残缺分析与控制在 S6 章节中汇报。

单次分类是基于 10 个不同的字符系统的一系列系统内分类任务进行评估的。如图1B i 所示,给定一个新字符的一张图片,参与者需要从来自同一个字符系统的 20 个不同字符中挑选出与给定字符相同的另一个样例。分类性能展示在图 6A 中,随机猜的错误率是 95%。作为一个基准算法,通过计算与中心图片的改进的 Hausdorff 距离进行分类的方法错误率为 38.8%。人类具有非常熟练的单次学习能力,能够达到平均错误率为 4.5%(N=40)。BPL 算法可以达到类似的错误率 3.3%, 超过了深度卷积网络(13.5% 的错误率)和 HD 模型(34.8%的错误率)——两者都是来源于在计算机视觉任务上性能优异的深度学习算法。一个针对该单次学习任务优化的深层连体卷积网络可以达到 8.0% 的错误率,几乎是人类和我们模型错误率的两倍。BPL 算法的优势在于在概念学习时建模了潜在的因果性过程,这种策略是和这里对比的深度学习方法所不同的。BPL 其他关键要素也起到了正面的作用,这可以通过残缺版本 BPL 算法的错误率得到佐证,缺少学会学习(仅记号层次)的 BPL 错误率为 11.0%,缺少组合性的 BPL 算法错误率为 14.0%。通过拆分生成模型学得的超参,我们分别从类型层次和记号层次分析了学会学习的作用。对组合性的评估则是通过将 BPL 与一个只允许单样条笔画的匹配模型进行对比,该模型和早期的手写字符合成式分析模型有类似的局限性。

人类单次学习的能力远不止于进行分类,而是会形成一整套能力,例如产生概念的新样例。我们通过“视觉图灵测试”来对比人类和机器的创造性输出,给定一对人类和机器产生的样例,要求人工评审来识别哪个是机器产生的。在我们最基本的任务里,由 9 个人在看到给定概念的单个样例后画出该概念的一个新样例,同时 BPL 算法产生该概念的 9 个新样例,评审们将对这些新样例进行比较(见图 5)。我们基于评审的准确率来评估各个模型,称该准确率为辨识(ID)水平:理想的模型性能将达到 50% 的辨识水平,意味着模型行为和人类行为无法区分;最坏情况的性能则是 100%。每个评审(N=147)在无反馈的情况下完成了 49 次试验,并对评审结果进行了单独和集成的分析。结果展示在图 6B(new exemplars)中。在区分人类和 BPL 行为上,评审仅达到平均为 52% 的辨识水平。从整体来看,该性能几乎和随机猜相当[t(47)=2.03,P=0.048],48 个评审中仅有 3 个的辨识水平是可靠地高于随机猜的。我们把评审分成几个不同的组,分别对残缺模型进行视觉图灵测试的评价,以检验 BPL 模型各要素的必要性。如果缺了学会学习(仅记号层次)和组合性,会让图灵测试明显变得简单(分别为 19 个评审中的 17 个达到80% 辨识水平,26 个评审中的 14 个达到 65% 辨识水平),这也说明了该图灵测试并不是一个很容易通过的任务,同时也说明了这两个准则对于 BPL产生类似人类那样的生成能力是有贡献的。为了更直接的评价解析过程(见图 4B),对另外一组评审(N=143)进行了一个动态版本的测试,在每次的试验中会展示一组人和 BPL 写出同一个字符的影片。在这个动态图灵测试上 BPL 性能并不完美(平均 59% 的辨识水平,见图 6B new exemplars(dynamic)),如果把学得的笔画顺序和方向的先验做随机扰动会显著提高辨识水平(71%),这也说明了 BPL 捕捉到正确的因果动态性的重要性。

尽管我们证明了基于 30 个背景字符系统可以有效地学会学习新字符,但人类其实需要的经验可以更少:也许只熟悉一个或几个字符系统,以及一些相关的书写任务即可。为了进一步检验本模型假如使用更有限的经验会表现如何,我们基于两个只包含 5 个背景字符系统的子集合重新训练模型。结果发现,该 BPL 算法可以和基于 30 个字符系统学的模型在单次分类上达到类似的性能(两个集合上分别是 4.3% 和 4.0% 的错误率);相反,深度卷积网络性能却显著下降(分别为 24.0% 和 22.3%的错误率)。在视觉图灵测试的新样例生成任务上(N=59),BPL 算法基于第一个子集合的性能基本和之前接近(平均为 52% 的辨识水平,和随机猜没有显著的区别 t(26)=1.04,P>0.05),27 个评审中只有 3 个可靠地优于随机猜,但是基于第二个子集合的性能略微差些(57% 的辨识水平,t(31)=4.35,P<0.001;32 个评审中有 7 个可靠地优于随机猜)。这些结果表明,尽管学会学习对于BPL 的成功很重要,但是是模型的结构使得它几乎充分地利用到了比较有限的背景训练数据。

人类的创造能力远不止于对给定的概念生成几个新样例——人们还可以创造出全新的概念。我们对此也进行了测试,从 10 种外语字符系统中找出一种并展示它的一些字符给参与者,要求参与者能够很快地创造出一个看起来也属于该字符系统的新字符(见图 7A)。BPL 模型也能够捕捉到这种行为,它是通过在类型层面设置一个非参先验,使得模型偏好于重用从字符样例中学得的笔画来产生风格一致的新字符(见 S7 章节)。人工评审基于视觉图灵测试,通过查看一系列如图 7A i 和 iii 展示的字符,对人类和 BPL 进行了对比。评审平均只有 49% 的辨识水平(见图 6B,new concepts(from type)),和随机猜没有 显 著 的 不 同(t(34)=0.45,P>0.05)。单独的看,35 个评审中只有 8 个的辨识水平是显著高于随机猜的。相反,缺了学会学习的模型却可以被另一组评审们在 69% 的视觉图灵测试中成功检测出来(25 个评审中的 18 个高于随机猜),显然比 BPL 模型容易检测得多。在 S6 章节中的进一步比较显示是模型生成合理的新字符的能力,而不是风格一致本身,才是通过这项测试的关键因素。根据评审的辨识水平,我们还发现在比较人类和 BPL在该任务的性能时评审之间差异更明显:35 个评审中有 10 个评审单独的辨识水平显著低于随机猜;相反,在图 6B 所示的其他实验中,对于 BPL 模型仅有 2 个评审有低于随机猜的辨识水平。

最后,评审在一个完全开放的生成新字符概念的任务上(即不需要受限于某个特定的字符系统)对人类和模型进行了对比(见图 7B)。BPL 算法如果基于字符类型 P(ψ) 的先验进行采样能够在视觉图灵测试中达到 57% 的平均辨识水平;如果基于非参先验从背景字符集中重用推断得到的部件,BPL 算法可以达到 51% 的辨识水平(见图 7B 以及图 6B new concepts(uncosntrained);辨识水平和随机猜没有显著差别 t(24)=0.497,P>0.05;25个评审中的 2 个优于随机猜)。残缺分析揭示了组合性(68%)和学会学习(64%)对于通过该项测试至关重要。

时间: 2024-10-22 20:57:30

《中国人工智能学会通讯》——2.24 结 果的相关文章

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——Master虽优势较多 但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版.众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆:同时状态空间大,也没有全局的结构.这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢.但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的.这些规律远远不是几条简单公式所能概括,但所需的信息量

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.