本次CVPR上,李飞飞团队都中了哪8篇论文? | CVPR 2017

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议,也是计算机视觉的世界三大顶会之一。2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开,雷锋网将赴前线做覆盖与报道。

李飞飞就职于斯坦福大学计算机科学系,目前为斯坦福大学人工智能实验室、斯坦福视觉实验室、丰田汽车-斯坦福人工智能研究中心负责人,同时也是Google云端人工智能暨机器学习首席科学家。

本次CVPR上,李飞飞团队共有8篇论文成功入选,以下是CVPR 2017 Li Fei Fei作为作者的论文摘要,雷锋网(公众号:雷锋网)AI科技评论做了编译和整理。

生成图像描述性段落的层级方法 (A Hierarchical Approach for Generating Descriptive Image Paragraphs)

作者:Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

最新的为图像生成字幕的方法可以生成以自然语言描述图像的句子,但是将图像的所有信息压缩为单个句子,这样仅能粗略地描述图像的视觉内容。还有一种新型字幕方法:密集字幕方法(dense

captioning),可以通过在图像中标注许多区域来潜在地描述更精细的图像细节,但是该方法不能为图像产生连贯的故事。在本论文中,研究者通过生成描述图像的整个段落来克服这些限制,该方法能够描述详细统一的故事。研究者开发了一个将图像和段落分解为其组成部分的模型,检测图像中的语义区域,并使用层级循环神经网络对语言进行推理。语言分析证明了段落生成任务的复杂性,对图像和段落对的新数据集的实验证明了该方法的有效性。 

论文地址:https://arxiv.org/abs/1611.06607

通过迭代查询获取视觉问题的知识获取(Knowledge Acquisition for Visual Question Answering via
Iterative Querying)

作者:Yuke Zhu, Joseph J. Lim, Li Fei-Fei  

人类具有学习新技能和新知识以解决问题的非凡能力。自动模式也需要这种学习能力来处理视觉世界中任意的、开放式的问题。研究者提出了一种基于神经的方法来获取视觉问答(VQA,
visual question
answering)的任务驱动信息。该模型提出了从外部辅助数据积极获取相关信息的查询方法。来自人工策划或自动来源的支持证据被编码并存储到存储器中。获取任务驱动的证据有效地提高了在Visual7W和VQA数据集上的模型性能;此外,这些查询在该迭代QA模型中提供了一定程度的可解释性。 

论文地址:http://people.csail.mit.edu/lim/paper/zlf_cvpr2017.pdf

使用个人中心多模态信号的能量支出与活动的联合学习(Jointly Learning Energy Expenditures and Activities Using
Egocentric Multimodal Signals)

作者:Katsuyuki Nakamura, Serena Yeung, Alexandre Alahi, Li Fei-Fei

生理信号,如心率可以提供有关个人状态和活动的有价值信息。然而,现有的计算机视觉工作尚未探索利用这些信号来增强个人中心视频(egocentric
video)的理解。Egocentric
video是人体可穿戴设备所拍摄出的视频,与一般的视频不同,这种视频的独有特征为播放时间长,持续性强(无镜头切换)。在这项工作中,研究者提出了一个基于多模态数据进行推理的模型,联合预测预测正在进行的活动以及能量支出。研究者使用心率信号作为特权自我监督(privileged

self-supervision),以得到训练状态中的能量支出。一个多任务的目标函数被用于联合优化这两个任务。另外,研究者引入了一个31小时的包含心率和加速度信号的个人中心视频数据集。该研究能够引出一些新的应用,例如视觉卡路里计数器。

 论文地址:http://vision.stanford.edu/pdf/nakamura2017cvpr.pdf 

视频长期动态运动的无监督学习(Unsupervised Learning of Long-Term Motion Dynamics for Videos)

作者:Zelun Luo, Boya Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei 

研究者提出一种无监督的表示学习方法,可以紧密地编码视频中运动的依赖关系。给定一个来自视频剪辑的图像,我们的框架可以学习预测长期的3D动作。为了减少学习框架的复杂性,研究者提出将运动描述为RGB-D模态计算的原子3D流序列。研究者使用基于循环神经网络的编码器-解码器框架来预测这些流程序列。为了使解码器能够重建这些序列,编码器必须学习一个稳定的视频表示,捕获长期运动依赖性和空间-时间关系。研究者展示了学习到的时间表示对跨越多个模态和数据集(如NTU
RGB+D和MSR Daily Activity 3D)的动作分类的有效性。该框架通用于任何输入模式,例如RGB,深度,和RGB-D视频 

论文地址:https://arxiv.org/abs/1701.01821 

学习如何从嘈杂的网络视频中学习 (Learning to Learn from Noisy Web Videos )

作者:Serena Yeung, Vignesh Ramanathan, Olga Russakovsky, Liyue Shen, Greg Mori, Li Fei-Fei

如何理解既多样化又有复杂细粒度的人类行为是计算机视觉中的一个关键的开放性问题。手动标注训练视频对于一些动作类是可行的,但是不能扩展到完全长尾分布的动作。解决这个问题的一个可行的方法是使用半监督或“网络监督”的方法,利用网络查询的嘈杂数据来学习新的动作。然而,这些方法通常不会学习特定领域的知识,或者依赖于迭代的手工调整数据标签策略。在该工作中,研究者提出了一种基于强化学习的公式,从嘈杂的网络搜索结果中选择训练分类器的正确样本。该方法使用Q学习来学习一个小标注训练数据集上的数据标注策略,然后使用它来自动标注嘈杂的网络数据,以获得新的视觉概念。在具有挑战性的Sports-1M
action recognition
benchmark以及其他细粒度的新动作类中,该方法能够为嘈杂数据学习良好的标注策略,并使用它来学习准确的视觉概念分类器。

论文地址:https://arxiv.org/abs/1706.02884 

教学视频中无监督的视觉-语言参考解决方案(Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos )

作者:De-An Huang, Joseph J. Lim, Li Fei-Fei, Juan Carlos Niebles 

研究者提出了一个在教学视频中使用无监督方法参考解决方案(reference

resolution),其目的是将视频上下文中提到实体与作用在它身上的动作联系起来。人类经常从带有讲解的视频中学习各种知识,比如如何拿住刀来切土豆,这些视频中通常有语言(字幕)提示以帮助学习。为了使机器也有同样的能力,理解视频中的实体和动作是必要的。该问题的关键挑战是视频中实体的外观和指代名称的变化导致的不可避免的视觉-语义模糊。比如将酸奶淋在蔬菜上,酸奶的外观发生变化,同时酸奶的指代名称也由“酸奶”变为“调料”。研究者想要使用无监督的方法解决该问题,从而进一步扩大了这个挑战。研究者通过学习一个联合的视觉-语言模型来解决这些挑战,其中语言提示可以帮助解决视觉歧义,反之亦然。研究者通过使用来自YouTube的两千多个非结构化烹饪视频来无障碍的学习该模型以验证该方法,结果显示该视觉语言模型相较于目前在教学视频中reference
resolution最好的语言模型有巨大的提升。 

 论文地址: https://arxiv.org/pdf/1703.02521.pdf 

CLEVR:组合语言和基本视觉推理的诊断数据集(CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning )

作者:Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick,Ross Girshick

在建立可以推理和回答关于视觉数据问题的人工智能系统时,需要进行诊断测试来分析研究进展,并发现缺点。视觉问答现有的基准在这方面有些帮助,但存在很强的偏差,导致模型可以利用偏差来正确的回答问题,而无需推理。这些基准也混淆了多个错误来源,导致很难定位模型弱点的来源。研究人员提供了一个测试一系列视觉推理能力的诊断数据集。它包含最小的偏差,并具有描述每个问题需要的推理类型的详细注释。研究这可以使用这个数据集来分析各种现代视觉推理系统,为他们的能力和限制提供新的见解。 

论文地址:https://arxiv.org/pdf/1612.06890.pdf 

通过迭代信息传递的场景图生成(Scene Graph Generation by Iterative Message Passing )

作者:Danfei Xu, Yuke Zhu, Christopher B. Choy, Li Fei-Fei

理解一个视觉场景的任务难度远超越了单独识别个别物体。物体之间的关系也构成了关于场景的丰富语义信息。在这项工作中,研究者使用场景图(一个视觉的图像图形结构)来明确地对物体及其关系进行建模。研究者提出一种从输入图像生成这种结构化场景表示的新颖的端对端模型。该模型使用标准RNN解决场景图的推理问题,并学习通过消息传递迭代地改进其预测。该联合推理模型可以利用上下文线索来对物体及其关系做出更好的预测。实验表明,该模型显著优于先前使用Visual
Genome数据集生成场景图的方法。

论文地址:https://arxiv.org/abs/1701.02426

本文作者:高云河

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-12-27 21:18:29

本次CVPR上,李飞飞团队都中了哪8篇论文? | CVPR 2017的相关文章

李飞飞团队最新跨界研究:神经任务编程NTP,让机器人具有强大泛化能力

9月26日,在温哥华举行的IROS大会上,计算机视觉专家.斯坦福AI Lab&Vision Lab主任李飞飞做了"A Quest for Visual Intelligence"的演讲,这也是李飞飞首次参加IROS这一机器人为主题的大会.值得注意的是,近日雷锋网在Arxiv发现了一篇讲述新型机器人学习框架的论文<Neural Task Programming: Learning to Generalize Across Hierarchical Tasks>,该论文

Women In Computer Vision——CVPR上一道特殊的靓丽风景线

我们都知道,CVPR(Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议是IEEE举办的图像识别领域的顶级会议,在其领域.乃至整个深度学习和AI领域都拥有巨大的影响力.但大家也许不知道的是,这个大会除了在技术方面的影响力和实力非常强悍之外,在一些细节上还显得非常有人文关怀. 从CVPR2015开始,这两年CVPR的工作交流会议(WorkShop)上都出现了一个新的固定板块:Women In Compu

【6000人齐聚CNCC2017】丘成桐、梅宏、沈向洋、李飞飞报告回顾,AI玫瑰绽放计算之美论坛

一场参会人数超过6000人的中国计算机领域盛会日前正在福州举行. 本文带来第一天主论坛上的演讲介绍:丘成桐.梅宏.沈向洋.李飞飞等大咖齐聚,带来最新的人工智能与计算机领域前沿介绍.在下午的一场被挤得水泄不通的论坛:计算之美--IT女性精英论坛上,李飞飞教授与新智元创始人.CEO杨静.香港科技大学张黔教授,北京大学李文新教授等学术界与产业界的优秀女性,一起分享在人工智能.物联网等领域的最新科研成果.学术思想以及个人的成长经历. 中国的人工智能到底有多火.从一年一度的中国计算机大会(CNCC)上能一

政府工作报告首现“人工智能”,AI进军国家战略层、李飞飞讲AI民主化四大战略| AI科技评论周刊

本周,国内AI圈值得关注的事情有:FPGA 2017最佳论文出炉,雷锋网对得主深鉴科技进行了专访:人工智能"进入国家战略层,AI公司最关注的是什么?AWE 2017本周在上海举办,海尔美的联手百度DuerOS,共同推出"会说话的家用电器":中国人工智能学会AIDL第二期[人工智能前沿讲习班]日前在北京中科院自动化所举行,北京大学王立威等教授参与讲课: 国外AI圈新闻有:Ian Goodfellow 离开OpenAI,重回谷歌大脑团队:Google Cloud Next' 17

李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁

本文讲的是李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁, 中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕.参加会议的人数众多,主会场座无虚席.雷锋网 AI 科技评论也派出记者团全程参与大会报道. 26日上午开幕式结束后,多位特邀嘉宾进行了现场演讲,主题涵盖计算机科学发展中的新技术和应用.自然语言利净额.AI如何服务于人.人工智能在信息平台的应用等等.斯坦福大学副教授.谷歌云首席科学家.机器学习界的标杆人物之一的李飞飞进行了题目为

【商汤科技23篇论文横扫CVPR】林达华教授重磅揭秘冠军论文

国际计算机视觉与模式识别大会 (CVPR) 是人工智能尤其是计算机视觉领域的顶级学术会议.今年CVPR的文章录取率大约29%.在CVPR上发表的论文被公认为代表了该领域科技发展的最高水平.从今年7月21日开始这个一年一度的盛会就在美丽的夏威夷火奴鲁鲁召开.本届CVPR大会商汤科技与香港中大-商汤科技联合实验室共发表了23篇论文,超过了以人工智能技术著称的科技巨头Google (21篇)和FacebookAI Research (7篇).这23篇论文涵盖了计算机视觉的多个领域,不仅提出了很多新型的

CVPR最有趣的5篇论文,不容错过!内含最佳学生论文! | CVPR2017

欢迎来到,空气中都飘散着 "论文味" 的夏威夷. 今年,国际计算机视觉与模式识别顶级会议(CVPR 2017)将于 7 月 21 日-7 月 26 日在美国夏威夷召开.我们的记者团也特赴夏威夷,在接下来几天为大家带来一手报道. 会议官方网站最新的数据显示,今年,CVPR 共收到 2680 有效投稿,一共有 783 篇论文被接收,其中有 71 篇获得 12 分钟口头报告(Oral ),144 篇获得 4 分钟短报告(Spotlights)的展示机会. 我们精选其中 5 篇论文,带大家概览

李飞飞在 IJCV 吐露心声:崛起的亚洲 AI 力量伴我成长 | CVPR 2017

雷锋网(公众号:雷锋网) AI 科技评论按:在CVPR 2017期间,国际顶级计算机视觉期刊 IJCV 举办了 Asia Night 龙虾之夜学术主题活动,IJCV 首位华人主编汤晓鸥教授邀请到 CV 领域多名具有亚洲学术背景的著名教授学者. 华裔女科学家李飞飞就是当晚嘉宾之一,并大家分享了一些她对亚洲力量在人工智能时代的崛起的个人感受.李飞飞是斯坦福大学终身副教授.斯坦福大学人工智能实验室和斯坦福大学视觉实验室负责人.谷歌云首席科学家,更是外国华裔在人工智能界获得高成就的标志性人物. 雷锋网

CNCC 2017大会第一天,邱成桐,梅宏,沈向洋,李飞飞,汤道生,马维英都讲了什么?

本文讲的是CNCC 2017大会第一天,邱成桐,梅宏,沈向洋,李飞飞,汤道生,马维英都讲了什么?, 10月26上午8:30分,由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办的2017中国计算机大会(CNCC 2017)在福州海峡国际会展中心如期隆重召开.雷锋网作为CNCC 2017独家战略合作媒体,大会期间将会在现场全程跟踪报道.会议最新动态,请关注雷锋网. 本次大会主题是"人工智能改变世界(AI Changes the World)",共