机器学习概述

人工智能,Artificial Intelligence,是计算机学科的一个分支,也是心理学、语言学、生物学等多学科交汇的一个热门领域。它企图了解人类智能的实质,并用计算机去模拟它,完成一些较为复杂的任务,让机器看起来像是“有了智能”。
该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

思维学普遍认为,人类大脑的思维分为抽象(逻辑)思维、形象(直观)思维和灵感(顿悟)思维三种基本方式。机器人在工作强度、运算速度和记忆功能方面可以超越人类,但在意识、推理等方面不可能超越人类。 

1.机器学习定义

Tom Mitchell(1998)给的定义:
定义任务Task为T,性能测量方法Performance Measure为P,经验Experience为E。
对于一个计算机程序来说,给它一个T和P,如果在E的影响下,P对T的测量结果得到了显著的改进,我们就说它在E中得到了学习。

2.能做些什么

分类,Classification。
预测,Prediction,一旦我们拥有拟合以往数据的规则,如果未来与过去类似,那么我们就能够对新的实例做出预测。
模式识别,Pattern Recognition。
光学字符识别,OCR ,Optical Character Recognition,即从字符图像识别字符编码。
不同的人有不同的书写风格;字体有大有小;倾斜角度不同;用的钢笔或中性笔也不同,所以同一个字符可对应许多不同的图像。图像不只是点的集合,更是笔画的集合,并且是有规律的,通过机器学习我们能够捕获这些规律。

压缩,Compression。用规则拟合数据,我们能得到比数据更简单的解释,需要的存储空间更少。例如,一旦你掌握了加法规则,就不必记忆每对可能数字的和是多少。

回归,Regression。假设我们要做一个能够预测二手车价格的系统。该系统的输入是能影响到汽车价格的一些属性,如品牌、车龄、发动机性能、里程等;输出是报价。这种输出为数值的问题就属于回归。

3.人工神经网络

人工神经网络,Artificial Neural Networks。它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。

神经网络概述见:http://blog.csdn.net/chuchus/article/details/41410073 。

4.有无监督

有监督的学习,Supervised Learning。

有监督是指训练数据中有人工标注的答案。包括分类与回归。
无监督学习,Unsupervised Learning。

5.深度学习

深度学习概述:http://blog.csdn.net/chuchus/article/details/51712628

Deep Learning.为了克服神经网络训练中的问题,采用了与神经网络很不同的训练机制。

传统神经网络中,采用的是back propagation的方式进行,简单来讲就是采用迭代的算法来训练整个网络,随机设定初值,计算当前网络的输出,然后根据当前输出和label之间的差去改变前面各层的参数,直到收敛(整体是一个梯度下降法)。
而deep learning整体上是一个layer-wise的训练机制。这样做的原因是因为,如果采用back propagation的机制,对于一个deep network(7层以上),残差传播到最前面的层已经变得太小,出现所谓的gradient diffusion(梯度扩散)。

什么是layer-wise?

答:这算是一个思想吧,就是网络有很多层,然后我一层一层的训练。先训练好第一层,然后固定第一层,将第一层的输出作为第二层的输入,训练第二层。然后固定第一和第二层,将第二层的输出作为第三层的输入,训练第三层……一直往下,知道需要的层数。然后再在网络最顶,加一个分类层,训练的时候,全部层一起训练(微调)。

时间: 2024-09-20 00:03:49

机器学习概述的相关文章

《Web安全之机器学习入门》一 第3章 机器学习概述

第3章 机器学习概述机器学习的概念非常多,从有监督到无监督,从聚类到回归,从浅层学习到深度学习,从准确率到召回率,它们究竟是什么意思呢?本章将介绍最主要的几个概念.不少机器学习初学者甚至包括业内老司机,一直被困扰的就是如何找到合适的训练数据和测试数据,针对数据的处理也花费了大量人力物力,究竟如何把身边各种形态的实物最终转换成机器可以理解的数字特征呢?本章将介绍数据集的获取与特征提取方案.本章介绍的数据集包括KDD 99.SEA.ADFA-LD等共10类,重点介绍如何针对数字型和文本型的数据进行特

《机器学习实践应用》书中源代码

下载地址:https://github.com/jimenbian/GarvinBook 注:本书代码部分参考了互联网资源,已在书中注明引用. 本项目代码严格遵循MIT开源协议,请大家用于参考和学习用途,谢谢. 文件夹名对应书中章节代码. 购书链接: https://item.jd.com/12114501.html 本书简介 <机器学习实践应用>是人民出版社于2017年7月出版的图书,作者李博.书中通过将机器学习算法与实际业务场景结合,让读者可以快速入门并使用高深的算法.在本书中,对整个数据

畅销榜上的机器学习、深度学习书单!

机器学习是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度等多门学科,专门研究计算机怎样模拟或实现人类的学习行为.机器学习是人工智能的核心,是使计算机具有智能的根本途径. 近年来,机器学习领域受到越来越多的关注,相关的机器学习算法开始成为热点,知乎上同类问题同样不少,如机器学习该怎么入门?机器学习.数据挖掘 如何进阶成为大神?普通程序员如何向人工智能靠拢?学习人工智能该看什么书? 今天小编整理了一些机器学习.深度学习.人工智能相关图书,涉及到的关键词如下:深度学习.Tensor

《Web安全之机器学习入门》一 导读

前 言 近几年,人工智能无疑成为人们口中的热点话题,先是谷歌的AlphaGo,后有百度的度秘.无人车,微软必应搜索推出的小冰.这一系列人工智能产品的推陈出新,令人眼花缭乱,一时间给人的感觉是人工智能遍地开花.无论人们接受还是不接受,人工智能都在迅速渗透各行各业.网络安全相比之下是一个传统行业,基于规则以及黑白名单的检测技术已经发展到了一定的瓶颈,而利益驱动的黑产团伙,其技术的发展已经远远超乎我们的想象.如何借助人工智能的力量,提升安全行业的整体检测与防护能力,成为各大安全厂商研究的课题.在国内安

为什么要写《机器学习实践应用》这本书

预售地址: https://item.jd.com/12114501.html 历经了10个月,<机器学习实践应用>这本书终于面世了.首先呢,因为我的工作比较忙,只能抽一些周末或者是下班以后的时间进行写作,另外书的发布流程是一个漫长的过程.所以当这本书出版的时候,我感到熟悉又陌生,熟悉是因为书中的内容经过了多次校对已经印到我的脑子中了,陌生是距离刚开始写这本书已经过去接近一年,对于当时的状态有一些陌生.我因为记忆力不好(智商偏低),所以从小就养成了经常总结事情的毛病,今天刚好赶上快周末,并且&

《循序渐进学Spark》一导读

Preface 前 言 Spark诞生于美国加州大学伯克利分校AMP实验室.随着大数据技术在互联网.金融等领域的突破式进展,Spark在近些年得到更为广泛的应用.这是一个核心贡献者超过一半为华人的大数据平台开源项目,且正处于飞速发展.快速成熟的阶段. 为什么写这本书 Spark已经成为大数据计算.分析领域新的热点和发展方向.相对于Hadoop传统的MapReduce计算模型,Spark提供更为高效的计算框架以及更为丰富的功能,因此在大数据生产应用领域中不断攻城略地,势如破竹. 与企业不断涌现的对

《Spark核心技术与高级应用》——导读

目 录 前 言 基 础 篇第1章 Spark简介 1.1 什么是Spark1.2 Spark的重要扩展1.3 本章小结第2章 Spark部署和运行2.1 部署准备2.2 Spark部署2.3 运行Spark应用程序2.4 本章小结第3章 Spark程序开发3.1 使用Spark Shell编写程序3.2 构建Spark的开发环境3.3 独立应用程序编程 3.4 本章小结第4章 编程模型4.1 RDD介绍4.2 创建RDD4.3 RDD操作4.4 共享变量4.5 本章小结第5章 作业执行解析5.1

《实用机器学习》——1.4 本书概述

1.4 本书概述 本书主要从解决实际问题的角度来介绍常用的机器学习算法.在1.3节中我们讨论了机器学习中常见的4类典型问题,基本上覆盖了目前实际中可以使用机器学习算法来解决的主要问题类型.在本书中,我们将主要讨论对应的4类算法,包括: 回归算法: 分类算法: 推荐算法: 排序算法. 其中回归算法和分类算法是两类最常用的算法,也是其他很多算法的基础,因此我们首先予以介绍.推荐系统在目前有了越来越多的应用,而排序算法在搜索引擎等领域也获得了广泛的应用,因此我们也会对常用的推荐算法和排序算法进行介绍.

Apache Spark机器学习.1.1 Spark概述和技术优势

摘要 Spark机器学习简介 本章从机器学习和数据分析视角介绍Apache Spark,并讨论Spark中的机器学习计算处理技术.本章首先概括介绍Apache Spark,通过与MapReduce等计算平台进行比较,展示Spark在数据分析中的技术优势和特点.接着,讨论如下五个方面的内容: 机器学习算法与程序库 Spark RDD和DataFrame 机器学习框架 Spark pipeline技术 Spark notebook技术 以上是数据科学家或机器学习专业人员必须掌握的五项最重要的技术内容