Deep Learning（深度学习）学习笔记整理系列之（四）

目录：

接上

九、Deep Learning的常用模型或者方法

9.1、AutoEncoder自动编码器

Deep Learning最简单的一种方法是利用人工神经网络的特点，人工神经网络（ANN）本身就是具有层次结构的系统，如果给定一个神经网络，我们假设其输出与输入是相同的，然后训练调整其参数，得到每一层中的权重。自然地，我们就得到了输入I的几种不同表示（每一层代表一种表示），这些表示就是特征。自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现，自动编码器就必须捕捉可以代表输入数据的最重要的因素，就像PCA那样，找到可以代表原信息的主要成分。

具体过程简单的说明如下：

1）给定无标签数据，用非监督学习学习特征：

在我们之前的神经网络中，如第一个图，我们输入的样本是有标签的，即（input, target），这样我们根据当前输出和target（label）之间的差去改变前面各层的参数，直到收敛。但现在我们只有无标签数据，也就是右边的图。那么这个误差怎么得到呢？

如上图，我们将input输入一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示，那么我们怎么知道这个code表示的就是input呢？我们加一个decoder解码器，这时候decoder就会输出一个信息，那么如果输出的这个信息和一开始的输入信号input是很像的（理想情况下就是一样的），那很明显，我们就有理由相信这个code是靠谱的。所以，我们就通过调整encoder和decoder的参数，使得重构误差最小，这时候我们就得到了输入input信号的第一个表示了，也就是编码code了。因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。

2）通过编码器产生特征，然后训练下一层。这样逐层训练：

那上面我们就得到第一层的code，我们的重构误差最小让我们相信这个code就是原输入信号的良好表达了，或者牵强点说，它和原信号是一模一样的（表达不一样，反映的是一个东西）。那第二层和第一层的训练方式就没有差别了，我们将第一层输出的code当成第二层的输入信号，同样最小化重构误差，就会得到第二层的参数，并且得到第二层输入的code，也就是原输入信息的第二个表达了。其他层就同样的方法炮制就行了（训练这一层，前面层的参数都是固定的，并且他们的decoder已经没用了，都不需要了）。

3）有监督微调：

经过上面的方法，我们就可以得到很多层了。至于需要多少层（或者深度需要多少，这个目前本身就没有一个科学的评价方法）需要自己试验调了。每一层都会得到原始输入的不同的表达。当然了，我们觉得它是越抽象越好了，就像人的视觉系统一样。

到这里，这个AutoEncoder还不能用来分类数据，因为它还没有学习如何去连结一个输入和一个类。它只是学会了如何去重构或者复现它的输入而已。或者说，它只是学习获得了一个可以良好代表输入的特征，这个特征可以最大程度上代表原输入信号。那么，为了实现分类，我们就可以在AutoEncoder的最顶的编码层添加一个分类器（例如罗杰斯特回归、SVM等），然后通过标准的多层神经网络的监督训练方法（梯度下降法）去训练。

也就是说，这时候，我们需要将最后层的特征code输入到最后的分类器，通过有标签样本，通过监督学习进行微调，这也分两种，一个是只调整分类器（黑色部分）：

另一种：通过有标签样本，微调整个系统：（如果有足够多的数据，这个是最好的。end-to-end learning端对端学习）

一旦监督训练完成，这个网络就可以用来分类了。神经网络的最顶层可以作为一个线性分类器，然后我们可以用一个更好性能的分类器去取代它。

在研究中可以发现，如果在原有的特征中加入这些自动学习得到的特征可以大大提高精确度，甚至在分类问题中比目前最好的分类算法效果还要好！

AutoEncoder存在一些变体，这里简要介绍下两个：

Sparse AutoEncoder稀疏自动编码器：

当然，我们还可以继续加上一些约束条件得到新的Deep Learning方法，如：如果在AutoEncoder的基础上加上L1的Regularity限制（L1主要是约束每一层中的节点中大部分都要为0，只有少数不为0，这就是Sparse名字的来源），我们就可以得到Sparse AutoEncoder法。

如上图，其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效（人脑好像也是这样的，某个输入只是刺激某些神经元，其他的大部分的神经元是受到抑制的）。

Denoising AutoEncoders降噪自动编码器：

降噪自动编码器DA是在自动编码器的基础上，训练数据加入噪声，所以自动编码器必须学习去去除这种噪声而获得真正的没有被噪声污染过的输入。因此，这就迫使编码器去学习输入信号的更加鲁棒的表达，这也是它的泛化能力比一般编码器强的原因。DA可以通过梯度下降算法去训练。

本文转自博客园知识天地的博客，原文链接：Deep Learning（深度学习）学习笔记整理系列之（四），如需转载请自行联系原博主。

时间： 2024-11-03 19:01:41

Deep Learning（深度学习）学习笔记整理系列之（四）的相关文章

Deep Learning（深度学习）学习笔记整理系列之（八）

目录: 一.概述二.背景三.人脑视觉机理四.关于特征 4.1.特征表示的粒度 4.2.初级(浅层)特征表示 4.3.结构性特征表示 4.4.需要有多少个特征? 五.Deep Learning的基本思想六.浅层学习(Shallow Learning)和深度学习(Deep Learning) 七.Deep learning与Neural Network 八.Deep learning训练过程 8.1.传统神经网络的训练方法

Deep Learning（深度学习）学习笔记整理系列之（一）（转）

Deep Learning（深度学习）学习笔记整理系列之（二）

Deep Learning（深度学习）学习笔记整理系列之（五）

Deep Learning（深度学习）学习笔记整理系列之（七）

Deep learning深度学习的十大开源框架

Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具. 对于希望在应用中整合深度学习功能的开发者来说,GitHub上其实还有很多不错的开源项目值得关注,首先我们推荐目前规模人气最高的TOP3: 一.Caffe.源自加州伯克利分校的Caffe被广泛应用,包括Pinterest这样的web大户.与TensorFlow一样,Caffe

请收下这份关于人工智能的根目录——博客整理系列（一）

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 博客更新太多,不知道如何选择?昨天还有博客没有看!今天又更新了!怎么办?不用烦恼,不用慌张!收藏本系列任何自己想要看的文章都不会错过,拿着"小册子"随时随地的看,随时随地的查.系列在手,天下我有! 请收下这份关于人工智能的根目录--博客整理系列(一) 关于数据科学的那些事--博客整理系列(二) 机器学习必备手册--博客整理系列(三) 扩展眼界的都在这--博客整理系列(四) 深度学习必备手册(上)--

大牛的《深度学习》笔记，Deep Learning速成教程

雷锋网(公众号:雷锋网)按:本文由Zouxy责编,全面介绍了深度学习的发展历史及其在各个领域的应用,并解释了深度学习的基本思想,深度与浅度学习的区别和深度学习与神经网络之间的关系. 深度学习,即Deep Learning,是一种学习算法(Learning algorithm),亦是人工智能领域的一个重要分支.从快速发展到实际应用,短短几年时间里,深度学习颠覆了语音识别.图像分类.文本理解等众多领域的算法设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,然后直接

关于深度学习(deep learning)的常见疑问 --- 谷歌大脑科学家 Caffe缔造者贾扬清

问答环节问:在finetuning的时候,新问题的图像大小不同于pretraining的图像大小,只能缩放到同样的大小吗?" 答:对的:) 问:目前dl在时序序列分析中的进展如何?研究思路如何,能简单描述一下么答:这个有点长,可以看看google最近的一系列machine translation和image description的工作. 问:2个问题:1.目前Caffe主要面对CV或图像的任务,是否会考虑其它任务,比如NLP?2.如果想学习Caffe代码的话,能给一些建议吗?答:Caffe的

猜你喜欢

打造Tomcat安全启动帐号

Tomcat是一个世界上广泛使用的支持JSP和servlets的Web服务器.它在JAVA运行时上能够很好地运行并支持Web应用部署.会因为设置不当,造成灾难性的后果.在Tomcat默认安装,Tomc ...

教你如何抢掉局域网内所有IP

昨天见论坛有人问起同一网卡添加多IP的事,虽然技术不太新颖,但是换个思考方法还是有看头的.添加方法先说下: 本地连接属性-->TCP/IP协议属性--->高级--->IP设置内添 ...

Excel如何横版打印

1.打开Excel表格,将表格数据切换到打印预览,这个时候我们会发现系统是默认纵向打印的. 2.接着点击工具栏的"页面布局"→"纸张方向"然后选择" ...

Win8“自动修复”无法修复您的电脑怎么办

开机进入系统自带的自动修复功能,最终显示:"自动修复"无法修复您的电脑. 解决方法: Windows 8自动修复失败,使用系统还原可以解决. 在修复失败页面选择高级选项---疑 ...

苹果发布Mac OS X10.9.4新测试版

据上一次发布OS X10.9.4 Mavericks测试版的一周后,苹果周四再向开发者发布了一个新的版本,最新的版带来小bug的修复和细微的调整.最新的OS X10.9.4 Mavericks(版 ...

用C实现OOP面向对象编程（1）

如摘要所说,C语言不支持OOP(面向对象的编程).并这不意味着我们就不能对C进行面向对象的开发,只是过程要复杂许多.原来以C++的许多工作,在C语言中需我们手动去完成. 博主将与大家一起研究一下如下用 ...

java开发后台报org.springframework.web.servlet.DispatcherServlet

问题描述 java开发后台报org.springframework.web.servlet.DispatcherServlet 2014-6-4 17:22:07 org.apache.catali ...

使用Android Studio搭建Android集成开发环境（图文教程）

[正文] 之前本人在博客中讲到使用IntelliJ IDEA 13搭建Android集成开发环境(图文教程).昨天重装系统了,所以为了跟上时代,今天来试一下Android Studio的使用.之前 ...

CAS Client集群环境的问题及解决方案

[原创申明:文章为原创,欢迎非盈利性转载,但转载必须注明来源] 之前写过一篇文章,介绍单点登录的基本原理.这篇文章重点介绍开源单点登录系统CAS的登录和注销的实现方法.并结合实际工作中碰到的问题,探讨 ...

c语言,自己编了个直接插入排序，可是却输出不了正确的结果，找不到哪里错了，求大神指点

问题描述 c语言,自己编了个直接插入排序,可是却输出不了正确的结果,找不到哪里错了,求大神指点 #include #include void Straightinsertionsort(int a[] ...

karma作为jQuery单元测试Runner

karma作为angular测试runner出现,如果你使用过karma一定感受到这很不错的javascript测试runner.简单干净的配置文件karma.config.js,以及karma in ...

在jquery中我有个复选框的id=a 我点一个按钮就让他选中怎么做了？（jquery）

问题描述在jquery中我有个复选框的id=a 我点一个按钮就让他选中怎么做了? (jquery) 在jquery中我有个复选框的id=a 我点一个按钮就让他选中怎么做了? (jquery) ...

微软推动态锁屏应用Tetra 域名遭抢注

域名城(domain.cn)10月23日消息,据悉,日前,微软推出新的 WP8.1动态锁屏应用Tetra,相关域名TetraLockscreen备受关注. 据了解,Tetra Lockscreen是 ...

eSIM卡在物联网领域的应用前景

随着物联网时代的到来,以及可穿戴的设备的普及,在智能手机终端遇挫的eSIM卡正在迎来春天.苹果的Apple SIM卡遭遇了重重挫折,只有为数不多的几家运营商支持,而绝大多数的中国消费者更是从未听闻.中 ...

国航经济舱头排座位被升级乘客质疑服务少价格高

飞机经济舱头排座位"被升级" 支付经济舱全价机票,购买一个位于经济舱第一排的位置. 国航等公司将经济舱第一排重新包装乘客质疑"超级经济舱"服务少价格高早报记 ...

华大基因借助英特尔微异构加速基因测序

基因测序,一直就是科学家不断地孜孜追求破译生命遗传信息的关键方法,而其海量.复杂.多变的http://www.aliyun.com/zixun/aggregation/14206.html" ...

实现两个客户端之间相互传送文件用html5

问题描述实现两个客户端之间相互传送文件用html5 就是两台设备之间实现文件的相互传送,做好是html5这样跨平台的,有什么好的思路和方法吗 ?求大神给点帮助啊

Linux系统中.bz2与.gz文件的区别

unix下常见的压缩文件格式,是由具有高压缩率的压缩工具bzip2生成,以后缀为.bz2结尾的压缩文件. GZ是UNIX系统中的压缩文件,ZIP的Gnu版本,功能和WINRAR一样压缩文件. .bz2 ...

大势不可逆安全厂商的未来在云上

本文讲的是大势不可逆安全厂商的未来在云上,随着企业用户对于云计算认知大大提升和国家云计算政策引导,政府和企业用户纷纷加速云落地,大家都称之为谓是政企云,但部署政企云面临的最后一道门槛是安全问题,该问 ...

细数二十世纪最伟大的十大算法

发明十大算法的其中几位算法大师 ◆ ◆ ◆ 一.1946 蒙特卡洛方法 [1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at ...

风来了，SaaS却沦为精神的SaaS

我应该算比较早就开始持续关注和研究SaaS的一批人,这可能跟我本身在一个企业级SaaS公司任职有关.去年我集中写过几篇分析SaaS的文章,坚定地为SaaS和企业级服务的风口必来而摇旗呐喊. 每个星期我 ...

一份ASP内存的释放的实验报告_应用技巧

实验目的:验证主动释放内存变量是否有价值. 实验原始代码: <script language=vbscript runat=server> Dim temp1,temp2 'temp1 = ...

pr的应用、提高及价值--对pr的一点点研究

1. pr的应用最好多储备几个高pr网站/页面以后想做哪方面的业务就很容易开展 google上一些热门关键字的前十位网页的pr统计电影 5~6在线电影 4~5性 5美女 4写真 5音乐 6手机 5 ...

js跳转页面方法总结_javascript技巧

js跳转页面方法大全<span id="tiao">3</span><a href="javascript:countDown"& ...

对象-求助：vtk callback并没有完成预期的效果

问题描述求助:vtk callback并没有完成预期的效果我按照官网的例子自己写了一个callback函数,设定为初始的renderer背景颜色为黑色,点击鼠标右键后renderer的背景颜色设置 ...

“剿”不灭的余额宝们

导言:以余额宝为入口的天弘基金为代表的货币基金,近期日子并不好过. iDoNews 业内人说第380期 7月21日 ( 微信号 iLoveDonews ) 长远来看,互联网基金的发展是极有前景的,在 ...

万国数据数据中心获4A级绿色数据中心认证

http://www.aliyun.com/zixun/aggregation/33721.html">2014年6月17日,在"云计算发展与政策论坛第四次高端会议" ...

Illustrator制作木勺图标效果教程

给各位Illustrator软件的使用者们来详细的解析分享一下制作木勺图标效果的教程. 教程分享: 好了,以上的信息就是小编给各位Illustrator的这一款软件的使用者们带来的详细 ...

js+HTML5实现视频截图的方法_javascript技巧

本文实例讲述了js+HTML5实现视频截图的方法.分享给大家供大家参考.具体如下: 1. HTML部分: <video id="video" controls="c ...

“海峡两岸ICT合作交流会”27日在江苏无锡举行

来自台北市电脑商业同业公会下属的近30家企业高层与无锡物联网企业在云计算设备.物联网应用.智慧商业等信息通信技术领域进行交流,共同推动两岸物联网创新示范中心建设. ICT为信息.通信和技术三个英文单词 ...

热搜