普渡大学创造 DeepHand,用深度学习开发 AR 新技术

雷锋网报道,美国印第安纳州的普渡大学西拉法叶分校的研究工作者,利用深度学习算法为虚拟增强现实技术提供了新型系统——“深度手控”(DeepHand)。

未来的人机交互系统,概念上应能够满足人类和虚拟环境间的交流互动。届时,对计算机的要求也变得更高,计算机将需要获取并计算人类手部复杂的运动状态及庞杂关节角度,从而理解人类双手无穷无尽的姿势所要表达的含义。

在虚拟增强现实技术中,用户需要佩戴头盔,才能够感知虚拟环境为用户所带来的视听盛宴。然而,增强现实技术能为用户呈现虚实并存的世界,并且满足用户对虚拟场景及真实世界双重互动。而虚拟现实技术为用户提供一个纯粹的人工环境,用户可以完全的沉浸在虚拟现实世界。

图片展示了深度手控系统的使用过程。“深度手控”(DeepHand)是由普渡大学C设计实验室的研究者所开发。该系统能够应用深度学习算法理解人类手部灵活的关节和大量复杂的扭动。这将会让我们向未来人机交互系统迈出一大步,更加深刻的满足人类和虚拟环境间的交流互动。

“如果将虚拟现实和增强现实二者结合,这种新系统必须能够看见并且理解用户的双手到底在做什么”,“Donald W. Feddersen机械工程系”兼C设计实验室主管,Karthik Ramani说道。“如果你的双手不能和虚拟现实相互沟通,那么你就没办法做任何事情。这就是为什么说双手在虚拟增强现实技术中是非常重要的。”

“深度手控”(Deephand)是一种新的系统,它应用卷积神经网络算法来模仿人类大脑,同时能够运用“深度学习”算法去理解双手状态的多变性和扭转的复杂度。“我们可以精确定位出手部和指头的位置,并能实时估计双手和指头的运动状态。”Ramani 说道。

一篇关于“深度手控”的研究论文在今年6月26日至7月1日于美国拉斯维加斯举办的CVPR 2016上展出。(附上会议传送门:http://cvpr2016.thecvf.com/

“深度手控”应用深度感知照相机捕捉使用者的手掌,并且使用特定算法来理解手势。“这种系统被称作‘三维空间用户界面‘,因为用户与电脑是在空间中进行交流,而不是传统的触屏控制和键盘操作。”,Ramani说道。“系统可以根据用户所需来识别搭建在虚拟平台上的物体,例如用户可以开虚拟汽车,或者做一个虚拟的陶艺。这样的一双会思考的虚拟双手,显然是一个至关重要的平台。”

这篇学术文章的作者是博士生Ayan Sinha和Chiho Choi 以及Ramani。关于这篇文章更多细节已在C设计实验室主页展出。普渡大学的C设计实验室,是由美国国家自然基金所支持,并且和Facebook及Oculus齐名。同时联合赞助CVPR研讨会。(普渡大学C程序设计实验室网址传送门在此。)

根据一个拥有250万个手势和结构的大数据库,研究工作者不断地“训练”深度手控系统。为了更快的提取有效信息,手指连接处被设置为特定的“特征向量”。

“我们识别一些手部的关键角度。然后我们观察这些角度是如何变化的。这些结构其实就是一些量化的数值。”Sinha说道。

“这个想法类似于Netflix上的推荐算法,根据先验知识,比如用户之前购买过的电影库,然后针对这类特定客户的偏好,选择性地向他们推荐电影。”Ramani说。“深度手控”倾向于选择‘空间最近邻’算法,这种算法能够最佳的被摄像头捕捉到手部具体位置。尽管训练这个系统要求强大的计算能力,但是一旦这个系统被训练好了,就可以在标准运算强度的计算机上运行。”

雷锋网了解到,这项研究已经被国家自然基金和普渡大学机械工程系所支持。

深度手控是一种关于重建人类手势使用深度学习算法的新理论。深度感知镜头使得电脑可以处理不同的人类手势。使用这些新的深度学习算法,电脑识别并重建手型的过程就像我们自身大脑做的那样。这有着潜力去变化我们和电脑交互的方式同时改变我们身边的事情。

深度学习模型能够观察手的不同部位,比如手掌或者指头,并且可以计算出他们组合在一起是怎么工作的,这和大脑的工作非常类似。考虑到自遮挡和自相似的手掌,甚至一些部分对于传感器根本不可见,但是算法依旧可以重建这些部位通过深度学习算法。

雷锋网(公众号:雷锋网)在此附上CVPR 2016该文章的论文摘要译文:

《DeepHand:一种基于补完深度特征矩阵的鲁棒手势估计方法》
摘要:

本文提出一种使用商用传感器的深度数据恢复3D手势信息的DeepHand算法。通过有区别的训练卷积神经网络,得到低维的具有深度映射性的手势特征。这一手势特征向量包含了手部运动中整体的和局部的典型关节角度信息。算法通过高效地的识别空间上最近的指节构建出的手势特征,将特征库与合成的深度映射信息结合,并融合前几帧中的相邻指节信息来实现识别功能。

矩阵补完是通过时间-空间行为特征与已标记的手势参数值共同估计未知的手势参数。算法中手势特征数据库覆盖了多种视角下的特征数据,分层估计手势参数从而保证了在遮挡情形下的鲁棒性。文中展示了在标准配置的计算机上统一使用帧率为32的视频流将DeepHand与最新的方法进行对比的结果。

 via Purdue University

本文作者:sunshine_lady

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-23 04:20:24

普渡大学创造 DeepHand,用深度学习开发 AR 新技术的相关文章

吴恩达 NIPS 2016:利用深度学习开发人工智能应用的基本要点(含唯一的中文版PPT)

雷锋网按:为了方便读者学习和收藏,雷锋网(公众号:雷锋网)特地把吴恩达教授在NIPS 2016大会中的PPT做为中文版,由三川和亚峰联合编译并制作. 今日,在第 30 届神经信息处理系统大会(NIPS 2016)中,百度首席科学家吴恩达教授发表演讲:<利用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning)>. 此外,吴恩达教授曾在今年 9 月 24/25 日也发表过同为<Nuts a

Google首席科学家韩国大学演讲:大规模深度学习

2016年3月7日,谷歌首席科学家,MapReduce.BigTable等系统的创造者,Jeff Dean受邀韩国大学,演讲主题<大规模深度学习>,这里部分来自highscalability的文字和笔者Youtube上的听录.刚好演讲在AlphaGo和李世石比赛之前,观众也问了他的预测,他只是说训练了5个月的机器跟顶尖高手的差距不好说:还有人问道他喜欢的编程语言(C++爱恨交织,喜欢Go的简洁,Sawzall才是真爱):在Google作为首席一天是怎么过的(要吃好早饭,到处闲逛闲聊,找到那些每

利用深度学习开发老板探测器,再也不担心刷着微博一回头突然看到老板了

如果上班的时候想放松一下,或者直说想偷偷懒,看点和工作无关的网页,这时候万一老板突然出现在背后,会不会感到很难堪呢? 有的浏览器设置了boss按键,手快的人还可以切换屏幕,不过总会显得不自然,而且经常搞的手忙脚乱的. 一个日本程序员决定自己动手,编写一个一劳永逸的办法,我们来看看他是怎么实现的吧~ 思路很直接:用网络摄像头自动识别在工位通道走过的人脸,如果确认是老板的话,就用一张写满了代码的截图覆盖到整个屏幕上. 整个工程中应用了Keras深度学习框架来建立识别人脸的神经网络,和一个网络摄像头用

MetaMind获800万美元融资让深度学习浮出水面

斯坦福大学学生Richard Socher在毕业之后创建了MetaMind,且于四个月后便从风投巨头Khosla Venture和Salesforce首席执行官Marc Benioff获得 800 万美元投资.(MetaMind创始人Richard Socher,和 Sven Strohband在位于加州的办公室)Richard Socher从没想到他会进入人工智能的尖端领域,他只是想把自己喜欢的数学和语言结合起来.但是事情一件接一件地发生了,他开发完成了一项出色的技术"递归神经网络"

深度学习必备手册(上)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册--博客整理系列(六) 深度学习的概念源于人工神经网络的研究,如果追溯深度学习的概念还是要回到2006年Hinton那篇论文,基于深信度网(DNB)提出非监督贪心逐层训练算法,未解决深层结构相关的优化难题出现的论文.

深度学习真的可以零基础入门吗?

我们先来谈谈自学深度学习最大的问题. 现在搞深度学习的,十之八九并不是"科班出身". 这就导致:如果你想要跨行成为一名深度学习工程师,从头到尾的一切,都基本靠自学.但是,开发者很快就会发现自己遇到了第一个障碍: 绝大多数的学习资源以理论研究为导向,轻工程实践. 其实这也难怪.这几年,深度学习是火了,但大牛们都来自学界,例子不胜枚举:比如谷歌云首席科学家李飞飞.主管 FAIR 的 Yann LeCun.在谷歌大脑的 Ian Goodfellow,以及在过去三年里任百度首席科学家的吴恩达.

深度学习的昨天,今天和明天

机器学习是人工智能领域的一个重要学科.自从20世纪80年代以来机器学习在算法理论和应用等方面都获得巨大成功.2006年以来机器学习领域中一个叫深度学习的课题开始受到学术界广泛关注到今天已经成为互联网大数据和人工智能的一个热潮.深度学习通过建立类似于人脑的分层模型结构对输入数据逐级提取从底层到高层的特征从而能很好地建立从底层信号到高层语义的映射关系.近年来谷歌微软IBM百度等拥有大数据的高科技公司相继投入大量资源进行深度学习技术研发,在语音图像自然语言在线广告等领域取得显著进展.从对实际应用的贡献

新工具——TensorLayer:管理深度学习发展的复杂性

更多深度文章,请关注:https://yq.aliyun.com/cloud 对于深度学习开发者来说,深度学习系统变得越来越复杂.以至于我们需要使用轻量级的工具从头到尾来管理流程,为了将更多的连续学习内置到神经网络中,这就要求我们建立可以迭代增强的更有弹性的数据集以及更多的动态模型. 深度学习开发人员必须花费大量的时间来整合神经网络的组件,管理模型生命周期,组织数据和调整系统并行度等等.随着使用新的培训样本后,人类对于神经网络模型的见解,更新模型和跟踪其变化的能力就变得非常必要了.为此伦敦帝国理

新工具——TensorLayer:管理深度学习项目的复杂性

更多深度文章,请关注:https://yq.aliyun.com/cloud 对于深度学习开发者来说,深度学习系统变得越来越复杂.以至于我们需要使用轻量级的工具从头到尾来管理流程,为了将更多的连续学习内置到神经网络中,这就要求我们建立可以迭代增强的更有弹性的数据集以及更多的动态模型. 深度学习开发人员必须花费大量的时间来整合神经网络的组件,管理模型生命周期,组织数据和调整系统并行度等等.随着使用新的培训样本后,人类对于神经网络模型的见解,更新模型和跟踪其变化的能力就变得非常必要了.为此伦敦帝国理