昨天英国雷丁大学宣布,俄罗斯人弗拉基米尔·维西罗夫(Vladimir Veselov)创立的人工智能软件尤金•古斯特曼(Eugene Goostman)通过了图灵测试。
我和许多人一样,看到这篇文章的标题时感到极为兴奋,然而看完内容后却又感到一阵空虚,心想,“通过了图灵测试,然后呢?这代表了怎样的技术进展呢?”
事实上,当我们认真体察这个所谓通过了图灵测试的软件古斯特曼后,便会发现三个问题:
1,聊天机器人古斯特曼的“背景设定”极为取巧。一个来自乌克兰的,母语不是英语的 13 岁男孩。他回答的许多问题都可以被理解为是因为他英语不好,或者太小而没有听懂,而不是因为他是一个 AI。
2,古斯特曼只让 33% 的人相信它是一个 13 岁的,母语不是英语的乌克兰小孩。如果算成考试分数,这就是个大大的 F。有人说,“当时图灵说的就是骗倒 30% 的人就算通过图灵测试了呀。” 然而当我们寻找这个标准的来源时却发现,图灵只是在论文中说过“我相信在 50 年内,人们能够编出这样一个程序,在经过 5 分钟的询问后,30% 的询问者都能觉得回答问题的是真人,而非一个台机器”。也就是说,图灵从未提出这样的标准,“30% 的人”,“5 分钟的询问”只是他对未来 50 年 AI 发展预测中的两个因素而已。
3,既然我们知道了古斯特曼并没有通过“真正的”图灵测试,那其实可以看看其他达到了相应标准的聊天机器人。比如说,在 1991 年的一次比赛中,一个叫 PC Therapist 的聊天机器人成功骗倒 10 个裁判中的 5 个,让他们相信这是个真人。2011 年, 一个叫 Cleverbot 的程序让 60% 的使用者相信它是一个真正的人。
并且,从BBC的截图来看,古斯特曼和一个正常的聊天机器人没有区别,交谈者稍有经验便会发觉这是一个 AI。
因此,MIT 的计算机认知学教授 Joshua Tenenbaum 认为,这场测试完全没什么意义,只是做一个聊天机器人去满足一些标准罢了。
事实上,“图灵测试”是一个已经存在了 65 年的概念,许多研究者认为它已经不能检测现代的 AI 了。比如纽约大学的 Gary Marcus 教授便认为现代的“图灵测试”应该是,让 AI 看一段视频,然后就视频中的内容对它进行询问,如果它让所有人都觉得是真人,便算通过了。
人工智能自诞生以来已经获得了极大的发展,不论是推荐算法,google 的无人车,还是 Siri,都是 AI 被运用在生活中的例子,我们真的有必要执着于这样一个 65 年前的测试标准么?
时间: 2024-10-26 09:22:06