本次CVPR上，李飞飞团队都中了哪8篇论文？ | CVPR 2017

CVPR是IEEE一年一度的计算机视觉与模式识别技术会议，也是计算机视觉的世界三大顶会之一。2017年的CVPR会议将于7月21日到26日于夏威夷Convention中心召开，雷锋网将赴前线做覆盖与报道。

李飞飞就职于斯坦福大学计算机科学系，目前为斯坦福大学人工智能实验室、斯坦福视觉实验室、丰田汽车-斯坦福人工智能研究中心负责人，同时也是Google云端人工智能暨机器学习首席科学家。

本次CVPR上，李飞飞团队共有8篇论文成功入选，以下是CVPR 2017 Li Fei Fei作为作者的论文摘要，雷锋网(公众号：雷锋网)AI科技评论做了编译和整理。

生成图像描述性段落的层级方法（A Hierarchical Approach for Generating Descriptive Image Paragraphs）

作者：Jonathan Krause, Justin Johnson, Ranjay Krishna, Li Fei-Fei

最新的为图像生成字幕的方法可以生成以自然语言描述图像的句子，但是将图像的所有信息压缩为单个句子，这样仅能粗略地描述图像的视觉内容。还有一种新型字幕方法：密集字幕方法（dense

captioning），可以通过在图像中标注许多区域来潜在地描述更精细的图像细节，但是该方法不能为图像产生连贯的故事。在本论文中，研究者通过生成描述图像的整个段落来克服这些限制，该方法能够描述详细统一的故事。研究者开发了一个将图像和段落分解为其组成部分的模型，检测图像中的语义区域，并使用层级循环神经网络对语言进行推理。语言分析证明了段落生成任务的复杂性，对图像和段落对的新数据集的实验证明了该方法的有效性。

论文地址：https://arxiv.org/abs/1611.06607

通过迭代查询获取视觉问题的知识获取（Knowledge Acquisition for Visual Question Answering via
Iterative Querying）

作者：Yuke Zhu, Joseph J. Lim, Li Fei-Fei

人类具有学习新技能和新知识以解决问题的非凡能力。自动模式也需要这种学习能力来处理视觉世界中任意的、开放式的问题。研究者提出了一种基于神经的方法来获取视觉问答（VQA，
visual question
answering）的任务驱动信息。该模型提出了从外部辅助数据积极获取相关信息的查询方法。来自人工策划或自动来源的支持证据被编码并存储到存储器中。获取任务驱动的证据有效地提高了在Visual7W和VQA数据集上的模型性能；此外，这些查询在该迭代QA模型中提供了一定程度的可解释性。

论文地址：http://people.csail.mit.edu/lim/paper/zlf_cvpr2017.pdf

使用个人中心多模态信号的能量支出与活动的联合学习（Jointly Learning Energy Expenditures and Activities Using
Egocentric Multimodal Signals）

作者：Katsuyuki Nakamura, Serena Yeung, Alexandre Alahi, Li Fei-Fei

生理信号，如心率可以提供有关个人状态和活动的有价值信息。然而，现有的计算机视觉工作尚未探索利用这些信号来增强个人中心视频（egocentric
video）的理解。Egocentric
video是人体可穿戴设备所拍摄出的视频，与一般的视频不同，这种视频的独有特征为播放时间长，持续性强（无镜头切换）。在这项工作中，研究者提出了一个基于多模态数据进行推理的模型，联合预测预测正在进行的活动以及能量支出。研究者使用心率信号作为特权自我监督（privileged

self-supervision），以得到训练状态中的能量支出。一个多任务的目标函数被用于联合优化这两个任务。另外，研究者引入了一个31小时的包含心率和加速度信号的个人中心视频数据集。该研究能够引出一些新的应用，例如视觉卡路里计数器。

论文地址：http://vision.stanford.edu/pdf/nakamura2017cvpr.pdf

视频长期动态运动的无监督学习（Unsupervised Learning of Long-Term Motion Dynamics for Videos）

作者：Zelun Luo, Boya Peng, De-An Huang, Alexandre Alahi, Li Fei-Fei

研究者提出一种无监督的表示学习方法，可以紧密地编码视频中运动的依赖关系。给定一个来自视频剪辑的图像，我们的框架可以学习预测长期的3D动作。为了减少学习框架的复杂性，研究者提出将运动描述为RGB-D模态计算的原子3D流序列。研究者使用基于循环神经网络的编码器-解码器框架来预测这些流程序列。为了使解码器能够重建这些序列，编码器必须学习一个稳定的视频表示，捕获长期运动依赖性和空间-时间关系。研究者展示了学习到的时间表示对跨越多个模态和数据集（如NTU
RGB+D和MSR Daily Activity 3D）的动作分类的有效性。该框架通用于任何输入模式，例如RGB，深度，和RGB-D视频

论文地址：https://arxiv.org/abs/1701.01821

学习如何从嘈杂的网络视频中学习（Learning to Learn from Noisy Web Videos ）

作者：Serena Yeung, Vignesh Ramanathan, Olga Russakovsky, Liyue Shen, Greg Mori, Li Fei-Fei

如何理解既多样化又有复杂细粒度的人类行为是计算机视觉中的一个关键的开放性问题。手动标注训练视频对于一些动作类是可行的，但是不能扩展到完全长尾分布的动作。解决这个问题的一个可行的方法是使用半监督或“网络监督”的方法，利用网络查询的嘈杂数据来学习新的动作。然而，这些方法通常不会学习特定领域的知识，或者依赖于迭代的手工调整数据标签策略。在该工作中，研究者提出了一种基于强化学习的公式，从嘈杂的网络搜索结果中选择训练分类器的正确样本。该方法使用Q学习来学习一个小标注训练数据集上的数据标注策略，然后使用它来自动标注嘈杂的网络数据，以获得新的视觉概念。在具有挑战性的Sports-1M
action recognition
benchmark以及其他细粒度的新动作类中，该方法能够为嘈杂数据学习良好的标注策略，并使用它来学习准确的视觉概念分类器。

论文地址：https://arxiv.org/abs/1706.02884

教学视频中无监督的视觉-语言参考解决方案（Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos ）

作者：De-An Huang, Joseph J. Lim, Li Fei-Fei, Juan Carlos Niebles

研究者提出了一个在教学视频中使用无监督方法参考解决方案（reference

resolution），其目的是将视频上下文中提到实体与作用在它身上的动作联系起来。人类经常从带有讲解的视频中学习各种知识，比如如何拿住刀来切土豆，这些视频中通常有语言（字幕）提示以帮助学习。为了使机器也有同样的能力，理解视频中的实体和动作是必要的。该问题的关键挑战是视频中实体的外观和指代名称的变化导致的不可避免的视觉-语义模糊。比如将酸奶淋在蔬菜上，酸奶的外观发生变化，同时酸奶的指代名称也由“酸奶”变为“调料”。研究者想要使用无监督的方法解决该问题，从而进一步扩大了这个挑战。研究者通过学习一个联合的视觉-语言模型来解决这些挑战，其中语言提示可以帮助解决视觉歧义，反之亦然。研究者通过使用来自YouTube的两千多个非结构化烹饪视频来无障碍的学习该模型以验证该方法，结果显示该视觉语言模型相较于目前在教学视频中reference
resolution最好的语言模型有巨大的提升。

论文地址: https://arxiv.org/pdf/1703.02521.pdf

CLEVR：组合语言和基本视觉推理的诊断数据集（CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning ）

作者：Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C. Lawrence Zitnick,Ross Girshick

在建立可以推理和回答关于视觉数据问题的人工智能系统时，需要进行诊断测试来分析研究进展，并发现缺点。视觉问答现有的基准在这方面有些帮助，但存在很强的偏差，导致模型可以利用偏差来正确的回答问题，而无需推理。这些基准也混淆了多个错误来源，导致很难定位模型弱点的来源。研究人员提供了一个测试一系列视觉推理能力的诊断数据集。它包含最小的偏差，并具有描述每个问题需要的推理类型的详细注释。研究这可以使用这个数据集来分析各种现代视觉推理系统，为他们的能力和限制提供新的见解。

论文地址：https://arxiv.org/pdf/1612.06890.pdf

通过迭代信息传递的场景图生成（Scene Graph Generation by Iterative Message Passing ）

作者：Danfei Xu, Yuke Zhu, Christopher B. Choy, Li Fei-Fei

理解一个视觉场景的任务难度远超越了单独识别个别物体。物体之间的关系也构成了关于场景的丰富语义信息。在这项工作中，研究者使用场景图（一个视觉的图像图形结构）来明确地对物体及其关系进行建模。研究者提出一种从输入图像生成这种结构化场景表示的新颖的端对端模型。该模型使用标准RNN解决场景图的推理问题，并学习通过消息传递迭代地改进其预测。该联合推理模型可以利用上下文线索来对物体及其关系做出更好的预测。实验表明，该模型显著优于先前使用Visual
Genome数据集生成场景图的方法。

论文地址：https://arxiv.org/abs/1701.02426

本文作者：高云河

本文转自雷锋网禁止二次转载，原文链接

时间： 2024-12-27 21:18:29