利用深度学习开发老板探测器,再也不担心刷着微博一回头突然看到老板了

如果上班的时候想放松一下,或者直说想偷偷懒,看点和工作无关的网页,这时候万一老板突然出现在背后,会不会感到很难堪呢?

有的浏览器设置了boss按键,手快的人还可以切换屏幕,不过总会显得不自然,而且经常搞的手忙脚乱的。

一个日本程序员决定自己动手,编写一个一劳永逸的办法,我们来看看他是怎么实现的吧~

思路很直接:用网络摄像头自动识别在工位通道走过的人脸,如果确认是老板的话,就用一张写满了代码的截图覆盖到整个屏幕上。

整个工程中应用了Keras深度学习框架来建立识别人脸的神经网络,和一个网络摄像头用来捕捉老板的人脸。

任务是这样的:

当老板接近我的工位时,电脑就会自动切换屏幕。

办公室的情况如下:

从老板的座位到我的座位大约6~7米,他会在离开座位后4到5秒钟到达我的座位,因此,需要在这之前隐藏屏幕,所以时间比较紧迫。

策略:

首先需要让电脑完成对老板面部的深度学习。然后在我的办公桌上摆上一个网络摄像头,让摄像头对着通道,当网络摄像头捕捉到老板的脸时就切换屏幕。

嗯,这是一个完美的项目。先取一个好名字,就叫Boss Sensor(老板探测器)好了。

Boss Sensor的简单结构图如下:

处理过程分为三步:

  • 网络摄像头实时拍摄图像
  • 学习模型检测和识别所拍摄图像的人脸
  • 如果识别结果是老板则切换屏幕

所需要的技术实现只有三项:

  • 拍摄人脸图像
  • 识别人脸图像
  • 切换屏幕

一步步完成之后整合就可以了。

拍摄人脸图像

首先找一个网络摄像头,我用的是BUFFALO BSW20KM11BK摄像头,大家随便找个清晰度够的就可以了。

最好不要用相机自带的识别软件裁剪人脸,因为后面的深度学习过程还需要处理。所以,我用Python和OpenCV编写了一段裁剪人脸图像的脚本,代码在这里下载。

偷拍到的人脸图像比我之前设想的更清楚▼

识别人脸图像

接下来,要用机器学习教会电脑识别老板的脸。

我们需要以下三个步骤:

  • 采集图像
  • 图像预处理
  • 建立机器学习模型

让我们一个接一个看一下。

采集图像

首先,需要收集大量的图片供电脑学习。一般来说有三种大量收集图片的方法:

谷歌图片搜索

Facebook的图像采集

从视频里截图

一开始,我像电影里的特工一样收集了各种搜索引擎上的老板照片,还有Facebook上老板自己上传的照片,但说实话,没有收集到足够的图像。所以,反正老板就在身边,我就简单粗暴的拍摄了一段他的视频,然后把视频分解成大量的图像。

图像预处理

现在我有很多人脸图像了,但还不能拿它们来建立学习模型,必须要裁剪掉与脸部不相关的部分。

我使用ImageMagick来提取人脸,你可以用别的图像软件来做。

总之,最后我收集了大量的人脸图像,就像这样: ▼

估计我是全世界拥有最多老板头像的人了,肯定比他爸爸妈妈要多的多。

现在可以准备机器学习了。

建立机器学习模型

Keras框架用来建立卷积神经网络和神经网络培训。Tensorflow用来写Keras的后端。如果只识别脸部的话,可以调用一些Web API比如微软的Computer Vision API,但这次我决定自己来实现,因为这个项目需要确保实时性。

网络体系结构大体如下,Keras非常方便,它可以很轻松的输出这样的结构: ▼

代码在这里下载。

至此,只要老板出现在摄像头中,我就可以识别出他来了。

切换屏幕

最后一步,很简单,学习模型识别出老板的脸之后,把电脑屏幕换掉就好了。

我是程序员,所以我准备了这样一张图:▼

电脑上只显示这张图片,这样就可以假装我在认真工作了。

这张图需要全屏显示,所以我调用了PyQt库,代码在这里下载。

一切工作都完成了。

成品

最后把分别实现的技术整合起来并验证,真的成功了!

“现在老板离开了座位,正走向我的工位。”▼

“OpenCV已经检测出人脸,将人脸图像发送给学习模型。”▼

“学习模型认出了他,屏幕自动切换。ヽ(‘ ∇‘ )ノ”▼

这就是我的Boss Sensor,全部的源码都放在github上了,可以在这里下载。

总结

结合网络摄像头的实时图像采集和Keras深度学习框架,确实可以完成人脸识别。

在实践过程中,我发现OpenCV的图像精度不够高,虽然不影响识别,但我准备改用Dlib来提高精度,另外我想自己编写人脸检测训练模型。

网络摄像头获取的图像不够清晰,我准备换个摄像头。

唉,坑还是越挖越深啊~

本文作者:林藠头

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-06 08:17:39

利用深度学习开发老板探测器,再也不担心刷着微博一回头突然看到老板了的相关文章

吴恩达 NIPS 2016:利用深度学习开发人工智能应用的基本要点(含唯一的中文版PPT)

雷锋网按:为了方便读者学习和收藏,雷锋网(公众号:雷锋网)特地把吴恩达教授在NIPS 2016大会中的PPT做为中文版,由三川和亚峰联合编译并制作. 今日,在第 30 届神经信息处理系统大会(NIPS 2016)中,百度首席科学家吴恩达教授发表演讲:<利用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning)>. 此外,吴恩达教授曾在今年 9 月 24/25 日也发表过同为<Nuts a

普渡大学创造 DeepHand,用深度学习开发 AR 新技术

雷锋网报道,美国印第安纳州的普渡大学西拉法叶分校的研究工作者,利用深度学习算法为虚拟增强现实技术提供了新型系统--"深度手控"(DeepHand). 未来的人机交互系统,概念上应能够满足人类和虚拟环境间的交流互动.届时,对计算机的要求也变得更高,计算机将需要获取并计算人类手部复杂的运动状态及庞杂关节角度,从而理解人类双手无穷无尽的姿势所要表达的含义. 在虚拟增强现实技术中,用户需要佩戴头盔,才能够感知虚拟环境为用户所带来的视听盛宴.然而,增强现实技术能为用户呈现虚实并存的世界,并且满足

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

深度 | 做到这些值4亿美元:看 Nervana 如何利用深度学习实现数据革命

2016 年 8 月,英特尔为了加强其人工智能领域的能力,以 4 亿美元的天价收购了机器学习初创公司 Nervana .该初创公司成立仅仅两年,却被公认为是机器学习技术开发的领导者.近日,Nervana 的联合创始人兼首席执行官 Naveen Rao 博士在 StrataHadoop 上和大家深入探讨了深度学习的话题,通过其PPT,我们也能了解Nervana价值所在. Naveen 探索了许多方面,包括深度学习相对于其他机器学习技术的好处.该领域的最新进展.深入学习工作流程.开发和部署深度学习解

利用深度学习优化视频结构 助力城市安防

深度学习是机器学习中一种基于对数据进行表征学习的方法.观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边.特定形状的区域等.而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别).深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征. 深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本. 视频结构化助力智慧城

独家专栏 | 如何利用深度学习搭建一个最简单的无人驾驶系统

雷锋网按:本文为雷锋网独家专栏,作者系佐思产研研究总监周彦武,雷锋网(公众号:雷锋网)经授权发布. 国内最牛的无人驾驶厂家的运算平台是这样的: 一个英特尔至强 E5 的 CPU,拥有 12 内核,30MB 的二级缓存,运算能力为 400GOPS/s,功率消耗为 400 瓦(应该是第一代至强 E5,目前 E5 最高功率消耗都不超过 180 瓦),八个英伟达的 K80 GPU,每一个 K80 的运算能力为 8TOPS/s,通过 PCI-E 连接,每一个 K80 的功率消耗为 300 瓦,合计是 28

《中国人工智能学会通讯》——2.27 利用深度学习改进统计机器翻译

2.27 利用深度学习改进统计机器翻译 利用深度学习改进统计机器翻译的核心思想是以统计机器翻译为主体,使用深度学习改进其中的关键模块,如语言模型[1] .翻译模型 [2] .调序模型 [3] .词语对齐[4]等. 深度学习能够帮助机器翻译缓解数据稀疏问题.以语言模型为例.语言模型能够量化译文的流利度,对译文的质量产生直接的重要影响,是机器翻译中的核心模块.传统的语言模型采用 n-gram方法,通过极大似然估计训练模型参数.由于这种方法采用离散表示(即每个词都是独立的符号),极大似然估计面临着严重

DeepTraffic: 如何让MIT的游戏利用深度学习来减少交通阻塞

大家都对交通阻塞深恶痛绝.除了让人头疼和错过约会之外,交通拥堵让美国的司机每年多花3000亿美元. 研究人员建议大家使用自动驾驶汽车,即使数量占比并不大,但也能大大改善交通拥堵情况. Lex Fridman和他的MIT团队开发了一款模拟游戏来加速实现这个未来. DeepTraffic模拟的是典型的公路环境,玩家使用深度学习技术来控制自己的汽车.这款模拟游戏让初学者也能接触并使用复杂的技术概念,同时也推动专家们去开发全新的技术. 采用神经网络的交通游戏 假设你在洛杉矶一条拥挤的高速公路上开车.你必

如何利用深度学习技术训练聊天机器人语言模型?

第一篇传送门:聊天机器人的发展状况与分类 第二篇传送门:基于规则和检索的聊天机器人引擎 本篇文章以这个开源项目为主线进行. 数据预处理 模型能聊的内容也取决于选取的语料.如果已经具备了原始聊天数据,可以用SQL通过关键字查询一些对话,也就是从大库里选取出一个小库来训练.从一些论文上,很多算法都是在数据预处理层面的,比如Mechanism-Aware Neural Machine for Dialogue Response Generation就介绍了,从大库中抽取小库,然后再进行融合,训练出有特