《构建实时机器学习系统》一1.3 机器学习领域分类

1.3 机器学习领域分类

从方法论的角度来讲,机器学习分为监督式学习、非监督式学习和新兴机器学习课题三大方面。
1. 监督式学习
监督式机器学习的主要任务是通过机器学习模型和已有信息,对感兴趣的变量进行预测,或者对相关对象进行分类。监督式机器学习的一些应用场景包括:对网页访问进行分类,通过声音、文字、表情等信息对用户心情进行判断,对天气进行预测等。常用的监督式机器学习方法包括线性模型、最近邻估计、神经网络、决策树等。最近特别火热的深度学习在图像分类等场景的应用也是监督式学习的一种。
2. 非监督式学习
非监督式学习的主要任务是对数据进行描述。在非监督式学习的应用场景中,所有变量几乎都处于同等地位,不存在一个需要进行预测和分类的目标。故此非监督式学习主要用于机器学习建模前期对数据的分析和可视化处理,其在生产环境中的应用较少。非监督式学习的主要方法包括聚类分析、隐含因子分析等。
3. 新兴的机器学习课题
最近五年,强化学习 (reinforcement learning)领域在深度学习的带领下得到了飞速的发展。强化学习旨在通过对实际事件的观察得到行为优化的结论,例如,AlphaGo 通过强化学习优化下围棋的策略。到目前为止,强化学习暂时还主要停留在学院派研究中,实际应用暂时有限。
本书将着重讲述机器学习方法在实时场景中的应用,我们将会简要介绍主流监督式学习的方法和应用。另外值得一提的是,在 IT 工业界应用中,自然语义处理、推荐系统和搜索引擎由于其专业领域深度和应用的难度,在各种文献中它们往往被列为独立的大方向。本书的第9章和第12章会对自然语言的处理进行简单的介绍。

时间: 2024-09-14 10:37:47

《构建实时机器学习系统》一1.3 机器学习领域分类的相关文章

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

《构建实时机器学习系统》一 导读

前 言 机器学习从业人员的艰难选择 作为机器学习从业人员,如果今天突然被公司或学校开除,你能养活自己吗?邻居老大妈买土鸡蛋不买神经网络模型,东门老大爷认识郭德纲不认识朴素贝叶斯,面容姣好的"翠花"只认房产证不认 Zookeeper.即使你身怀绝技,有着远大的抱负,机器学习应用难以变现也是事实.为了能维持生计,众多机器学习从业人员只能进入大公司.大组织.但限于流程和已有的体制,在这样的工作环境下,他们很难完全发挥自己的潜能. 太多的好朋友,在脱离体制和大公司的时候豪情万丈,吃散伙饭时和战

《构建实时机器学习系统》一第2章 实时监督式机器学习 2.1 什么是监督式机器学习

第2章 实时监督式机器学习 2.1 什么是监督式机器学习 监督式机器学习旨在利用训练集数据,建立因变量和自变量之间的函数映射关系.如果用X 代表自变量,Y 代表因变量,f 代表映射函数,b 代表映射函数的参数,那么监督式机器学习的任务就是找到恰当的函数f 和参数 ,让下面的映射尽量符合要求: y=f (x;b,e) 这里e为实际情况中的随机扰动项. 下面就来具体看看在监督式机器学习中,因变量.自变量和预测函数的含义. (1)因变量 因变量是我们试图通过机器学习模型预测的变量,在实际应用中它往往无

《构建实时机器学习系统》一1.4 实时是个“万灵丹”

1.4 实时是个"万灵丹" 成长会解决一切问题.如果一个企业正在飞速成长,大家步调一致.同心齐力,那么内斗或管理混乱等问题将是难以出现的.而当企业的成长受到了制约,停滞不前的时候,往往就会出现众多非技术性原因造成的悲剧. 我们强调机器学习的实时性,就是为了保证应用机器学习的企业能够利用机器学习的资源大踏步向前,而不会被早早地制约,徘徊不前.机器学习就已经够有挑战性的了,为什么还要采用实时机器学习?根据我们的经验,实时机器学习上马应该越早越好,原因具体有以下三点. 1.实时架构稳定性可以

《构建实时机器学习系统》一3.4 数据分析的三个要点

3.4 数据分析的三个要点 本书后面的章节中将会以前面发现的均值回归的性质为依托,设计实时机器学习交易策略进行交易.好多读者看到这里可能已经跃跃欲试,等不及要开始搭建服务器开始赚他一个亿了.但是在这之前我们需要总结一下在开展机器学习工作前期关于数据分析的几个原则. 3.4.1 不断验证假设 验证假设是否正确是机器学习前期数据分析最重要的目的.这里的假设包括但不限于:数据的格式.变量的数量.数据是否缺失.是否有极端值.采样是否均衡等.上面这些假设,如果稍有差错,就会让在后面得到的机器学习模型无用武

《构建实时机器学习系统》一1.6 实时应用对机器学习的要求

1.6 实时应用对机器学习的要求 现今每年都会发表成千上万的机器学习相关的论文,其中不乏表现突出的方法论,但是并不是所有的机器学习模型在实际应用中都适用.实时机器学习的应用主要有以下几个方面的要求. 1.模型可扩展性 模型可扩展性需要整个机器学习应用的各个部分均可以轻易地根据实际需要进行扩展.这里的扩展可能是增加新的预测变量,也可能是在新的市场. 人群和用户界面中进行使用,还有可能是加入新的架构部件,进行可视化等操作. 2.模型运用低延迟性 低延迟性是实时机器学习应用区别于其他机器学习应用的核心

揭秘谷歌量子计算机:构建机器学习系统

导语:美国<连线>杂志上周五发表文章称,谷歌正在使用D-Wave"http://www.aliyun.com/zixun/aggregation/13408.html">量子计算机"来构建机器学习系统,以帮助提升机器的语义分析能力.但文章同时指出,D-Wave还称不上是"通用量子计算机",因为它处理的任务还非常有限. 以下是文章全文: 谷歌购买了一台D-Wave,全球最大的军火商洛克希德-马丁公司也买了一台.但我们仍不同意它们所购买的就是

Spark-ML-02-设计机器学习系统

机器学习在商业系统应该是用的最多了,和传统人工区分开,因为数据集量级太大和复杂度太高,机器可以发现人难以发现的模型,基于模型的方式处理可以避免人的情感偏见.人工也是不可以完全抛开的,比如监督式的学习,靠人工:来标记数据,训练模型.文本标记和文本的情感标识别,还有就是破解验证码时基于CNN大量的训练集要靠人来处理,也是醉了,那是很累啊.模型出来后,可以做成服务整合到其他系统中, 机器学习应用在: 个性化 根据各个因素改变用户的体验和呈现给用户的内容.包含了用户的行为数据和外部因素.推荐也是个性化一

谷歌开源第二代机器学习系统 TensorFlow

深度学习对计算机科学而言,是有相当深远的影响的.它让尖端科技研究.开发数千万人日常使用的产品成为可能.Google Research宣布推出第二代机器学习系统TensorFlow,针对先前的DistBelief的短板有了各方面的加强,更重要的是, 它是开源的,任何人都可以用. 谷歌内部深度学习结构DistBelief开发于2011年,它让谷歌能够针对数据中心的数千核心,构建更为大型的神经网络和规模训练,典型的应用像是提升谷歌应用中的语音识别能力,以及为谷歌搜索加入图片搜索功能. 不过DistBe