美国西北大学新系统在智力测试中超越75%民众,人类的推理能力也不及AI了?

你听过瑞文氏标准推理测试(Raven’s Progressive Matrices)么?上面这张图就是一道标准的瑞文氏测试题目,是不是很眼熟?在公务员考试、一般的智力测试中我们经常看到它。

那么问题来了,你知道图中这道题的答案么?如果不知道,也用不着沮丧,因为有75%的美国人大概也不知道。但坏消息是:计算机可能知道。

近日,美国西北大学的科研团队研发了一个全新的计算模型,在瑞文氏标准推理测试中达到或超越了75%美国普通大众的表现。被媒体誉为人工智能史上的又一里程碑。

要知道,根据2016年的数据显示,一般18岁成年人的平均智商为97,6岁儿童的平均智商为55.5,相比之下谷歌人工智能系统的智商则为47.3,微软小冰是24.5。人工智能的智商还不及6岁儿童的平均水平。

团队负责人,来自西北大学McCormick工程学院的Ken

Forbus教授对此表示:“模型在智力测试中的表现优于75%的美国大众,这意味着人工智能的逻辑推理能力已经高于人类的平均水平,起码在测试题中如此。另外,由于对人来说很难的题目对模型来说通常也很难,这表示该模型已经可以表现出一些人类认知系统中特有的重要属性。”

Ken Forbus教授

实力这么强,这个模型到底是如何工作的呢?

据悉,该模型建立在一个名为CogSketch的“草图”(sketch)理解系统之上,该系统同样是Ken

Forbus团队的研究成果。这里“草图”是指人们在思考问题或表达观点时自然而然在纸上画下来的说明性图样,特别是面对有关空间理解和地理学的相关问题时,尤其必要。CogSketch系统可以基于草图进行空间建模和逻辑推理,再配合此次最新研发的计算模型,因而能够在瑞文氏标准推理测试中脱颖而出。

Ken

Forbus教授认为类比推理是解决视觉问题的核心,团队正是在这一核心思想的指导下研发了最新的计算模型。所谓类比推理即结构映射的过程,是在不同对象之间通过逐个匹配,寻找它们在结构上的相似点,从而通过图式归纳(即关系结构表征)把源问题中元素之间的关系要素提取出来,用于靶问题的解决。也就是说,先要形成基于源问题的图式归纳,再基于源问题和靶问题之间的结构映射将图式归纳应用到靶问题的解决。在新的计算模型中,团队成员利用了结构映射理论来对比不同的图像,通过标记两张图像中发现的相同结构,识别出其中的相同点和不同点。值得一提的是,结构映射是由心理学家Dedre
Gentner于1983年提出的一个理论,他也是西北大学的教授。

针对西北大学的这项研究,雷锋网随机采访了两位相关专业的在读研究生,他们表达了自己的看法。

钟超杰是来自北京林业大学的硕士在读生,曾参与车载摄像头的行人检测项目。他认为,虽然模型的智力测试成绩超过了75%的人类,但这并不能说明计算机的智力真的就超过了人类。因为除了推理之外,智力的含义应该更复杂,比如还包括学习能力、数学计算能力等。而且他觉得如果模型建的好,经过一定数据量的训练,计算机处理这类问题的能力一般是可以超过人类的,但超出这类问题的范畴应该就不行了。

周志敏是来自浙江大学的研二在读生,了解机器学习领域的各种算法,包括svm、神经网络等。他认为这是人工智能针对特定任务的又一项成功应用,跟人类的类比、推理能力并不一样。西北大学的模型之所以表现出超过75%普通民众的推理能力,是因为它经过了大量的类似数据的训练,如果让它做图形之外的工作应该就不行了。

当前,人工智能系统对图像和语音的识别能力已经相当出色,但对于语义和图像含义的理解、推理能力仍有待提高。西北大学的团队表示,在许多场景中除了对源数据进行识别之外,对其含义的推理和解释也至关重要,这也是他们研发全新的计算模型并对其展开瑞文氏标准推理测试的原因。他们希望这项研究成果可以为计算机视觉领域今后的发展提供一些技术参考。

本文作者:恒亮

本文转自雷锋网禁止二次转载,原文链接

雷锋网

时间: 2024-10-03 07:54:56

美国西北大学新系统在智力测试中超越75%民众,人类的推理能力也不及AI了?的相关文章

分布式监控系统Ganglia,测试中的监控技术

我们在测试活动中,时常关注一些性能数据,这些数据从哪儿来?很显然,放在我们面前的第一道关卡便是监控技术,我们需要合理的,可以高度扩展和集成的监控系统,可以实时监控性能数据,并将他们用漂亮的方式展现出来,云时代背景下诞生了这么一些给力的工具,他们中有一些名字已经让大家足够熟悉了,Nagios,Gmond等,他们中还有一个强大的身影,就是今天给大家分享的Ganglia. Ganglia Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的

敢为自己来正名一次吗 IQ智力测试体验

[手机中国 软件]相信大多数人都曾经在各大网站上测试过自己的IQ,也就是智商.笔者也曾是其中的一员,但无奈其中的题目难度较大(对于我而言),每次得分都不是很高,其实无论最终的结果如何,测试的过程才是我们真正享受的.如今,有一款名为"IQ智力测试"的软件登陆到我们的手机当中,这样一来,我们就可以随时随地来一场智商测验啦.IQ智力测试软件截图"IQ智力测试"中的所有试题采用的是国际标准的智力测试题,所以真实性与准确性都是有保障的.从玩家录入名字开始共有20道难度不一的题

探秘 Google 酝酿中名叫 Fuchsia 的神秘新系统

计算机与汽车都很多相似的地方,消费者无需懂得底层的纷繁复杂,只要它能开启并使用就行了--Android.Windows.OS X.以及Linux,也都是如此.当然,在开发出来之后,它们仍需经过多年的磨砺,才会变得更加成熟.不过Google正在神秘开发的.名叫"Fuchsia"的新系统,却不是这么一回事. 外媒Android Authority在几天前撰写了一篇介绍Fuchsia的文章,其中包含了一个指向编译指南的链接,感兴趣的网友可以到那里查看如何构建一个可启动的系统. 打造Fuchs

M#部分新特性融进C# 7.0中,微软新系统Midori变成Wavefront

  大名鼎鼎的WalkingCat (h0x0d,MSDN 账户 felix9)在长期研究中发现了有关C#和微软新系统的最新消息. 根据WalkingCat援引前M#开发者Jared Parsonswrote的博文,M#将把自身部分特性融入C# 7.0新版中.M#为C#语言的一种扩展,用于构建基于微软下一代系统Midori (与Singularity OS相关)本身和相关应用,意在增强可靠性和性能. 但根据WalkingCat此前的推文,Midori项目基本可以确定停摆,大部分参与员工都已经离开

熊猫猪新系统测试之二:Mac OS X 10.10 优胜美地

    在第一篇windows 10技术预览版测试之后,本猫为大家呈现另一个刚刚才更新的mac操作系统:"优胜美地".苹果同样一改以猫科动物为代号命名的传统,在10.9的Mavericks之后,第二次使用景点名称的命名方式新的10.10操作系统:Mavericks是美国加尼福尼亚州的一处海滩,而Yosemite则是美国约塞米蒂国家公园的大陆译称呀!我老是下意识的把"优胜美地"和本国的某品牌空调广告词乱搭,比较无语呀!     如果说Mavericks只是10.7界面

中国人工智能学会通讯——智力测试与智能测评的对比思考

因为我的研究方向是心理学,不是特别懂计算机的东西,像陈老师说的,我们2013年很有可能开始一个合作,后来没有进行下来,我们希望来做一下机器人的智能测试.我想跟大家说为什么我对这个研发感兴趣,刚才陈老师也提到了,在学科交叉的过程中给我们提出了很多挑战,刚才几位老师讲的我觉得都跟心理学有关系. 因为我们做动物和人的比较,如果把机器人放在这样一个框架里面怎么理解这个问题,跟大家交流.我准备的内容还是有点多,会挑比较有意思的部分跟大家讨论. 陈老师说了机器人是自己跟自己比,我的想法是,还是要放在框架里面

苹果紧急发布新系统iOS 11.0.1 修复多种BUG

本文讲的是苹果紧急发布新系统iOS 11.0.1 修复多种BUG,不久前,苹果面向所有的 iOS 设备推送了最新版的 iOS 11 操作系统,和往年一样,新版系统给用户设备带来各种各样的问题以及软件 BUG,导致部分软件运行缓慢,甚至死机.据外媒最新消息,面对用户提出的各种意见,苹果迅速发出了一个升级包. 据美国科技新闻网站 AppleInsider 报道,周二,在 iOS 11 发布一周之后,苹果对外发布了升级包以及最新版系统 iOS 11.0.1,新版本旨在修正之前版本存在的各种软件问题.

敏捷开发和测试中重现缺陷和验证缺陷的解决方案(1)

第1部分:部署重现缺陷的环境 简介:本文为系列的第一篇文章,首先简述了系列的主旨和每部分的内容.然后针对敏捷开发和测试中开发人员重现测试人员开出的缺陷这一问题,具体描述了如何用IBM工具Rational Automation Framework以及IBM Workload Deployer快速记录和部署重现缺陷所需的测试环境,从而让开发人员可以更快速准确地获得重现缺陷的环境. 系列背景简介 在敏捷开发的大环境下,产品需要根据用户的需求不断进行变化,产品版本的研发周期越来越短,产品的交付速度越来越

渗透测试中的冷却启动攻击和其他取证技术

这是一个星期四的晚上,快乐时光即将开始.你会尽快走出办公室.你整天都忙于准备一份报告,第二天早上还需继续,因此你将电脑锁屏.这足够安全,是吗?因为你使用了高强度密码,并全盘加密,Ophcrack或者可引导的linux发行版例如kali不起作用.你自认为安全了,其实你错了.为了得到重要材料,攻击者越来越无所不用其极,这包括使用取证领域的最新技术. 计算机中存在一个单独的区块:活动内存,任何一个攻击者都愿意把手伸到这个存储有敏感信息完全未加密的区块.系统为了方便调用,在内存中存储了多种有价值信息:全