AI 能看懂漫画吗?它的脑补能力比人类差远了

读漫画对人工智能太难了

随着人工智能的不断发展,它似乎已经在很多方面赶超了人类——面部识别、物体识别,还有象棋、围棋、各种视频游戏。

人们不禁要问,还有什么事是 AI 做不好的呢?它在哪方面比不过人类?现在,马里兰大学帕克分校 ( UMCP ) 的一项研究告诉你,读漫画可能就是其中之一。

据国外媒体报道,马里兰大学 Mohit Iyyer 教授对 AI 读漫画书的能力进行了测试。结果显示 AI 在这一领域远远比不过人类。

漫画由一系列单独的图画构成,每部分都搭配文字解释,图文符合度很高。这样一来,如果单独看某一张图片或是某一句文本是很难理解到漫画意思的。

除此之外,不同作者的绘画风格、语言风格不同,排版也存在巨大的差异。而且漫画与视频不同,每张图画之间的时间和空间是不连贯的,中间的大量情节需要读者发挥想象力去脑补,这种对人类是轻而易举的事情,对 AI 却是难如登天。

Iyyer 教授用 4000 本漫画书创造了一个由 120 万张漫画画格组成的图库,每张画格配有对应的文本对话框。由于涉及版权问题,图库中的漫画全部来源于 20 世纪 30 年代到 50 年代的作品。

为了弄清楚 AI 理解漫画的能力如何,研究人员进行了让人工智能程序依靠之前见过的图画预测下一个画格的实验。首先研究小组先让 AI 学习漫画的创作过程,将漫画中的一个画格及其对应的文本投给不同的机器算法,让它们学习一组漫画中的每个画格之间是如何相互关联的。在大量训练之后,研究人员把一组AI 之前没有见过的短篇漫画集对它进行测试,并要求它预测出下一张图画或者文本的内容。结果发现,人类预测的正确率高达 80 %,而 AI 却与人类水准相差甚远。

Iyyer 教授解释,“虽然如今的 AI 已经在图像识别、文本识别上取得了不凡的成就,但是对于看漫画这种需要人类大脑进行逻辑推理和想象力思考的活动,它还是远远不及人类。不过,这也是我们今后努力的方向。”

Via technology

【招聘】雷锋网(公众号:雷锋网)(公众号:雷锋网)坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力,翻译及写作能力优良的外翻编辑加入。工作地点深圳。简历投递至 guoyixin@leiphone.com 。兼职及实习均可。

推荐阅读:

预告:MXNet火了,AI从业者该如何选择深度学习开源框架丨硬创公开课

IBM中国研究院院长沈晓卫:从编程时代迈向认知时代,没有一家企业能独担此任

 人工智能的未来 | 科大讯飞创始人刘庆峰:17年AI从业经验,从这10000字长文中一窥

本文作者:sunshine_lady

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-02 23:14:07

AI 能看懂漫画吗?它的脑补能力比人类差远了的相关文章

动态 | AI能看懂英文,阿里巴巴夺实体发现测评全球第一

AI科技评论消息,全球顶级的知识库构建测评KBP2017日期公布了最新排名.阿里巴巴人工智能研究机构iDST斩获英文实体发现测评全球冠军,在准确率和召回率上均表现出色,核心指标F1达到0.811.这次测评吸引了全球20多支顶尖团队参与,包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 腾讯等. KBP是由NIST(National Institute of Standards and Technolog

【AI+娱乐】一图看懂爱奇艺大脑增强版,智能视频峰会有AI更有爱

深度学习和强化学习在视频领域的应用会是下一个AI热点,情感计算会让智能视频的世界更有温度,爱奇艺世界未来有AI更有爱.--新智元创始人杨静 6月9日,爱奇艺世界·大会第二天,聚焦探讨AI与娱乐深度融合.相互激发的智能视频高峰论坛盛大开幕,爱奇艺CTO汤兴博士.杜比实验室全球高级副总裁John Couling.北京电影学院未来影像高精尖创新中心首席科学家.山东大学计算机学院院长陈宝权博士.英特尔中国研究院院长宋继强博士.中影国际文化传媒公司董事长.CEO唐季礼.新智元创始人杨静等业界专家.企业家共

六张图看懂 Amazon Go智能购物,专利文件解密AI 核心技术细节

亚马逊Go推广视频:1分钟,颠覆你对线下实体购物的认知 几天前,就在亚马逊迎来可能是公司史上最大的 Holiday Season时,亚马逊发布了一段介绍旗下新的零售商店 Amazon Go 的视频,消费者可以直接走进商店,拿下货架上的货物,然后离开.整个过程不需要排队,也不用结账. <福布斯>的记者 Ryan Mac 说:"这看起来非常有趣,充满了未来感,但是,至少目前为止,这一切还都只是宣传." 每年从感恩节到圣诞节的长假中,亚马逊都会成为媒体上的最大赢家.2013年,B

十分钟看懂图像语义分割技术

大多数人接触 "语义" 都是在和文字相关的领域,或语音识别,期望机器能够识别你发出去的消息或简短的语音,然后给予你适当的反馈和回复.嗯,看到这里你应该已经猜到了,图像领域也是存在 "语义" 的. 今天是 AI 大热年,很多人都关注与机器人的语音交互,可是有没有想过,将来的机器人如果不能通过图像来识别主人,家里的物品.宠物,那该多没意思.说近一些,假如扫地机器人能够机智地绕开你丢在地上的臭袜子而扫走旁边的纸屑,一定能为你的生活解决不少麻烦. 没错,图像语义分割是 AI

【重磅】一图看懂阿里云两个新大脑:ET 医疗大脑和 ET 工业大脑

3月27日至29日,阿里云2017年第一场云栖大会在深圳拉开帷幕.29日上午的主题演讲由阿里巴巴副总裁.阿里云总裁胡晓明带来.在题为<通往智能之路>的演讲中,他与现场数百名开发者.媒体和合作伙伴分享了阿里云.阿里巴巴集团一年来的变化. 一分钱 VS 一个亿?胡晓明怼上马化腾   胡晓明在演讲中提到一件值得关注的事:腾讯本月以一分钱的报价成为厦门市政务云外网云服务提供商.他认为这是对行业的破坏. 他说:"我要对马化腾说:随着云计算已经越来越多地成为大企业选择的时候,我们要想如何为用户提

先看懂列表,再正确使用列表

  引言 随着公司朝互联网转型的脚步,目前我们已经有几十个移动APP上线,但是各个应用之间的设计策略和规范的差异性导致我们自身的设计品牌难以凸显,略显杂乱;而交互原则的差异性则导致每个应用之间的交互方式差异颇大,明明是同一个系列同一个类型的应用,却用了两种截然不同的交互框架,给用户的学习和使用上带了了很多不便. 在这种情况下,我们用户体验部通过成立这个移动专项研究小组来进行分步骤.长期的移动应用设计模式研究,希望能够通过我们的努力,不断改进我们的移动应用设计模式,最终将我们金蝶品牌的移动应用在易

如何让搜索引擎看懂你的网站结构层次

听到这个标题有些阅读者认为这很俗气,所说的越是俗气东西,别人才关注,呵呵!从标题看出来,这也明确的表达出来意思,就是让搜索引擎看懂你的网站是干什么,网站层次结构合不合理,如果说搜索引擎看不懂,更别提客户能看懂你的意思.所以说这个也网站结构占了很大比例,网站结构层次很清晰,你的网站就会容易受到百度蜘蛛的欢迎,会很快收录你的网站内容. 一.网站结构要像"树" 为什么说要像"树结构",从图   从这个图中我可以看出来,客户或者搜索引擎很快就能找到它想要的东西,很清晰的表达

python实现模拟按键,自动翻页看u17漫画

 python  适用于windows平台 使用 win32gui,win32api,win32con 包 simu_read.py   代码如下: #-*- coding=utf-8 -*- ''' 模拟按键翻页 Usage:python simu_read.py 10 1.5 10表示翻10页,1.5表示在一页中按pgdn的时间间隔为1.5s 一页pgdn 3 次,之后按→翻到下一页 把浏览器打开到u17要看的漫画中,之后启动该程序,再切回u17 便可以自动翻页看漫画了. 仅供娱乐,了解py

让别人看懂你的PPT设计

没有精彩的演讲,没有专业的配音,在没有你"辅助"的情况下别人是否时候依然能看懂你的PPT,你是否有效的展现出你的内容?我想很多人都或多或少的会有所欠缺吧. 当然好的文案+优秀的设计才是制胜的关键,所以不要给我讲PPT设计只是次要的.别人总是希望能够轻松而有效率地阅读,会尽量的回避搜索页面内容,并且希望能够从PPT文案中获得新鲜的.美的剌激,或者是获得有用的东西. 第一丨轻松阅读 现在越来越多的个性化的PPT设计涌现出来,这是好的现象.我却认为这只适合个人爱好,可能个性和平庸之间必须找到