《构建实时机器学习系统》一1.5 实时机器学习的分类

1.5 实时机器学习的分类

按照实际应用中采用的方式不同,实时机器学习可以分为硬实时、软实时和批实时三种模式,下面将分别进行介绍。

1.5.1 硬实时机器学习

硬实时的定义是:响应系统在接收到请求之后,能够马上对请求进行响应反馈,做出处理。硬实时机器学习的主要应用场景是网页浏览、在线游戏、高频交易等对时效性要求非常高的领域。在这些领域中,我们往往需要将相应延迟控制在若干毫秒以下。对于高频交易等场景,更是有不少计算机软件、硬件专家,开发出了各种专有模块以在更短的时间内完成交易,获得超额利润。
在本书写作之时,计算机网络的传输速度仍然是响应延迟的一大主要因素。硬实时机器学习的响应架构往往会试图尽量减少请求处理过程中的网络传输步骤。与此同时,为了达到硬实时的要求,在请求突然增加的时候,往往会采取负载均衡的方法,靠增加服务器的数量来减少响应延迟。

1.5.2 软实时机器学习

软实时的定义是:响应系统在接收到请求的时候,立即开始对响应进行处理,并且在较短时间内进行反馈。软实时机器学习只要求系统立即对请求开始进行处理,最后处理完成所消耗的时间比较少,但是要求不如硬实时严格。软实时机器学习的主要应用场景是物流运输、较为频繁的数量金融交易等领域。例如某物流企业在接到订单之后需要对运输时间、物品风险进行预估,其中需要和多个系统服务进行交互读取,这个时候我们需要系统能够实时地做出处理,但是处理结果可能需要经过数秒才能得到。
由于软实时机器学习对响应延迟的要求有所放松,因此往往会在处理架构中加入分布式队列这一组成部件。处理的任务会被实时地传输到分布式队列中,而后端的处理程序能响应式地对任务进行处理。与此同时,在请求增加的时候,可以通过分布式队列缓冲到达的任务,也可以通过负载均衡的方法增加处理单元,以保证低延迟。

1.5.3 批实时机器学习

硬实时机器学习和软实时机器学习都是针对具体的单个事件进行处理。与此相对应的,批实时机器学习是指对成批到达的数据进行实时的处理。批实时机器学习的应用场景往往处于后端机器学习模型的训练和数据处理加工上。通过实时训练的模型将会被部署到硬、软实时机器学习架构中,对数据进行处理。
由于批实时机器学习需要对一定时间窗口内的所有数据进行处理,因此批实时机器学习架构中往往也会有一个分布式队列,对时间窗口内的数据进行缓冲和加工。在数据流向增加的时候,可以通过加大分布式队列的容量,提高分布式队列的处理能力;也可以通过增加处理单元的方法来提高处理能力,以保证低延迟。

时间: 2024-11-01 23:56:53

《构建实时机器学习系统》一1.5 实时机器学习的分类的相关文章

《构建实时机器学习系统》一 导读

前 言 机器学习从业人员的艰难选择 作为机器学习从业人员,如果今天突然被公司或学校开除,你能养活自己吗?邻居老大妈买土鸡蛋不买神经网络模型,东门老大爷认识郭德纲不认识朴素贝叶斯,面容姣好的"翠花"只认房产证不认 Zookeeper.即使你身怀绝技,有着远大的抱负,机器学习应用难以变现也是事实.为了能维持生计,众多机器学习从业人员只能进入大公司.大组织.但限于流程和已有的体制,在这样的工作环境下,他们很难完全发挥自己的潜能. 太多的好朋友,在脱离体制和大公司的时候豪情万丈,吃散伙饭时和战

《构建实时机器学习系统》一第2章 实时监督式机器学习 2.1 什么是监督式机器学习

第2章 实时监督式机器学习 2.1 什么是监督式机器学习 监督式机器学习旨在利用训练集数据,建立因变量和自变量之间的函数映射关系.如果用X 代表自变量,Y 代表因变量,f 代表映射函数,b 代表映射函数的参数,那么监督式机器学习的任务就是找到恰当的函数f 和参数 ,让下面的映射尽量符合要求: y=f (x;b,e) 这里e为实际情况中的随机扰动项. 下面就来具体看看在监督式机器学习中,因变量.自变量和预测函数的含义. (1)因变量 因变量是我们试图通过机器学习模型预测的变量,在实际应用中它往往无

《构建实时机器学习系统》一1.4 实时是个“万灵丹”

1.4 实时是个"万灵丹" 成长会解决一切问题.如果一个企业正在飞速成长,大家步调一致.同心齐力,那么内斗或管理混乱等问题将是难以出现的.而当企业的成长受到了制约,停滞不前的时候,往往就会出现众多非技术性原因造成的悲剧. 我们强调机器学习的实时性,就是为了保证应用机器学习的企业能够利用机器学习的资源大踏步向前,而不会被早早地制约,徘徊不前.机器学习就已经够有挑战性的了,为什么还要采用实时机器学习?根据我们的经验,实时机器学习上马应该越早越好,原因具体有以下三点. 1.实时架构稳定性可以

《构建实时机器学习系统》一1.8 实时机器学习模型的生存期

1.8 实时机器学习模型的生存期 进行实时机器学习开发必须考虑生存期.生存期是指一个系统从提出.设计.开发. 测试到部署运用.维护.更新升级或退役的整个过程.若在生存期设计上出现了数据,那么在后面的使用中就会出现各种各样的瓶颈阻碍应用产生价值. 从软件工程的角度上讲,开发实时机器学习也遵从构思.分析.设计.实现和维护五个步骤,这五个步骤可能会循环往复,随着业务的发展进行多次迭代.实时机器学习模型的应用由于其技术的特殊性,也具有自己的小型生存期,其中包括数据收集.数据分析.离线手工建模评测.上线自

《构建实时机器学习系统》一3.4 数据分析的三个要点

3.4 数据分析的三个要点 本书后面的章节中将会以前面发现的均值回归的性质为依托,设计实时机器学习交易策略进行交易.好多读者看到这里可能已经跃跃欲试,等不及要开始搭建服务器开始赚他一个亿了.但是在这之前我们需要总结一下在开展机器学习工作前期关于数据分析的几个原则. 3.4.1 不断验证假设 验证假设是否正确是机器学习前期数据分析最重要的目的.这里的假设包括但不限于:数据的格式.变量的数量.数据是否缺失.是否有极端值.采样是否均衡等.上面这些假设,如果稍有差错,就会让在后面得到的机器学习模型无用武

【Spark Summit East 2017】使用Kafka, Spark, and Kudu构建实时BI系统

本讲义出自Ruhollah Farchtchi在Spark Summit East 2017上的演讲,主要介绍了在面对处理实时流数据时的一个关键性挑战就是被捕获到的数据的格式不是查询中的最佳解析格式,那么如何构建实时的商业智能系统就成为了一个挑战,本讲义介绍了如何使用Kafka, Spark, and Kudu构建实时BI系统.

财付通构建网络支付反欺诈实时监控系统

本文讲的是财付通构建网络支付反欺诈实时监控系统,2014年9月17日-19日,2014 中国系统架构师大会(SACC 2014)在北京五洲皇冠国际酒店盛大开幕.作为中国规模最大的架构师豪门盛会,本届中国系统架构师大会以"发现架构之美"为主题,探讨最具前瞻性的行业趋势与技术热点,分享架构在企业中的最佳实践,共同领略架构之美. ▲腾讯财付通的助理总经理张平 互联网金融爆发一方面带来了一场金融体系的变革,另一方面也让金融朝向普惠金融方向发展.但是,互联网金融也是金融,背后的风险控制在互联网时

基于Storm的Nginx log实时监控系统

[编者按]Hadoop的缺点也和它的优点同样鲜明--延迟大,响应缓慢,运维复杂.被人广受诟病,但是 有需求就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来,Storm正是在这个时候横空出世,Storm是一个免费开源.分布式.高容错的实时计算系统.Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求. 以下为原文: 背景UAE(UC App Engine)是一个UC内部的PaaS平台,总体架构有点类

选好数据指标 杜绝实时决策系统事后诸葛亮

ZDNET至顶网CIO与应用频道 08月04日 评论分析:时至今日,大数据已经是一个绕不开的话题了.然而怎样才能拥有大数据能力,却是众多企业头疼的问题.毕竟大数据能力并不是简单的拥有大数据,而是如何利用大数据来创造价值.Gartner对此给出了这样的定义:大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产. 实时决策系统为啥沦为马后炮? 决策能力中很重要的一部分就是实时决策,然而不少企业建立了大数据平台,也有不少支持实时决策的,但实际效果却很

Python在实时嵌入式系统开发中扮演的五个主要角色

Python已经成为相当热门的程序语言.它以着名的Monty Python喜剧组命名,属于面向对象和解释型语言(非编译型).该属性使得Python具有良好的跨平台性,比如Linux和Windows,或是诸如Raspberry Pi等单板计算机.随着Python的日益普及,人们可能会问,在实时嵌入式系统中是否也有Python的一席之地. 答案是肯定的.下面是开发人员发现Python在实时嵌入式系统开发中有可能扮演的五个主要角色. 作用# 1设备调试和控制 在嵌入式软件开发过程中,开发人员常常需要分