IBM机器学习方案将Spark引入大型机平台

没错,虽然大型机向来更擅长处理指定的事务型任务,但其同样可以支撑大数据与机器学习等负载类型。事实上,将二者加以结合能够带来相当积极的实际意义。

纽约市的众多历史、商业乃至人文建筑过去几年来可谓饱受摧残。最新的受害者之一正是历史悠久的华尔道夫酒店,其在重新装修后不到一周即告停业,且可能未来三年都不会重新开放。报道称,其中将保留300到500个客房,但建筑本身的大部分面积都将转换为豪华公寓。难道我们没有办法在进行公寓建设的同时,继续保留华尔道夫的传统酒店功能?

答案是肯定的,至少从数据与分析角度来看完全可行。就在上周华尔道夫酒店宣布倒闭的同时,IBM公司恰好在那里举办了一项活动——讽刺的是,蓝色巨人的宣传结论正是新旧工作负载能够有效共存。

正如很多现代客户仍然喜欢下榻华尔道夫酒店,不少企业也在继续将关键性工作负载运行在大型机之上。这主要是考虑到对这些系统进行迁移将带来企业无法承担的风险性与业务中断后果。然而随着新型工作负载的重要性不断提升,大型机供应商应如何解决此类难题?IBM公司给出了自己的解决方案:宣布在Z系列大型机上支持机器学习型工作负载。

Spark入驻大型机

这一举措的意义无需赘言,特别是对于IBM这样一家仍然能够从大型机的销售出阵维护中获得可观营收的企业。不过蓝色巨人提出的观点也同样具有说服力:既然大型机仍然处理着如此众多的事务,那么以此为基础建立数据预测模型无疑将成为任何数字化或者数字化业务转型的必要条件。虽然可以将其中的数据导出至其它更为现代的系统中以进行特征工程、模型构建、测试以及评分,但可以肯定的是数据移动会带来高昂的资金与时间成本,且很有可能与数据安全策略相冲突。

有鉴于此,IBM公司给出了一套混合型方案。首先,其建立一套Linux集群以对来自外部源的数据进行提取、转换、通道性处理并负责支持Jupyter记要工具。在此之后,向其中添加IBM Machine Learning——一套基于大型机的高针对性联合平台,专门用于实现机器学习功能且无需进行数据移动。其采用大型机的zIIP(即System z集成化信息处理器)以实现大型机平台上的商务智能与分析工作负载处理,且不会产生任何MIPS费用。

全部执行操作皆由大型机负责进行,以避免将数据引入其它流程。为了实现这一目标,IBM公司基本上将Apache Spark 1.6移植到了其Z系列平台之上,具体包括Spark MLLib、Spark SQL、Spark Streaming以及GraphX。IBM后续还将引入更多机器学习库,并计划引入TensorFlow等来自开源社区的更多模型与框架。

数据集规模不足

不过需要注意的是,大型机上的数据量往往为GB级别而非TB或者PB级别,这意味着其可能不足以训练出足够精确的分析模型。不过考虑到机器学习技术正快速发展成熟,这应该并不是什么致命的问题——特别是考虑到“数据挖掘”技术原本就是面向较小数据量而设计产生。

事实上,目前我们常用的模型往往采用来自物联网设备的大规模实时活动或者事件驱动型数据作为支持。这些模型拥有相当理想的精度表现,且目前的数据流技术已经能够将其实现。相比之下,大型机机器学习的思路在于立足事务数据建立模型,而事务本身天然存在规模较小这一属性,意味着相关事件由底层活动数据负责支持。客户需要的正是这种基于事务的数据构建模型,因此IBM公司完全有可能让大型机机器学习方案成为现实。另外,由于不需要对数据的粒度细化水平提出过高要求,因此建模、测试与评分等相关流程的计算需求也将有所下降。这意味着此类计算将能够在同一主机上以更短、复杂度更低的方式更轻松地得到实现。

调整、结果与工作强度

当然,IBM公司在数据转换功能方面还需要做出具体调整,从而确保更合理地处理大型机当中密度较低的数据排布状况。另外,Jupyter亦支持R与Python等除Scala之外的语言。数据转换能力将由Rocket Software负责提供,这样的处理方式应该要比IBM全球服务团队自行构建更为科学。随着记事编码支持能力的提升,相信未来蓝色巨人将为用户提供更多可用编程语言选项。

是的,这正是新旧负载的和谐共存之道。对于IBM这样的巨头级供应商,其涵盖市场跨越了多个技术世代,而此次提出的新旧融合无疑极具现实意义。既然微软能够将R语言引入SQL Server,那么IBM公司同样能够将Spark引入大型机。

原文发布时间为:2017年2月27日

本文作者:孙斌

时间: 2024-10-07 09:47:54

IBM机器学习方案将Spark引入大型机平台的相关文章

加速企业级大数据方案落地 IBM聚力发挥Spark优势

大数据技术在近些年得到了长足发展,大数据软件框架Hadoop的快速兴起引领了大数据的行业潮流.作为一种类Hadoop的新计算框架,Spark自2014年从Apache中孵化出来后,在短短两年的时间中为大数据技术赋予了新的活力,这一基于内存的分布式计算框架已经在众多行业得到应用. 随着2.0版本的新近发布,Spark向大数据市场展现了其性能提升空间,其在Streaming概念上的进一步强化为实时流处理及查询加载了更强的保障.在大数据领域,Spark逐渐成熟,正在走向更多行业.更多企业. 面对这一逐

Apache Spark机器学习.1.2 在机器学习中应用Spark计算

1.2 在机器学习中应用Spark计算 基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用.Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源.因此,Apache Spark可以从任何Hadoop输入源(如HDFS)中读取数据.   Apache Spark计算模型非常适合机器学习中的分布式计算.特别是在快速交互式机器学习.并行计算和大型复杂模型情

借力IBM 贵州移动搭建云计算民生服务平台

贵州移动云平台项目已上线36项信息化业务系统,成功实现IaaS服务模式 通过借助IBM云计算技术,贵州移动云平台项目已经成功上线包括"新农合"在内的36项信息化业务系统,贵州参合农民通过一张新型农村合作医疗卡,即可实现在线补偿结算,做到了"小病不出村.大病不出县". 2009年5月,贵州省卫生厅与中国移动贵州公司(下称贵州移动)签署战略合作协议,希望依托州移动的通信网络,提高新农合信息化水平,建设卫生信息大平台,推进卫生信息化建设进程. 根据规划,系统将以贵州省卫生

IBM云计算6+1基础架构管理平台解决方案

1 IBM云计算6+1解决方案 IBM云计算解决方案是IBM云计算中心经过多年的探索和实践开发出来的先进的基础架构管理平台.该方案结合了业界最新技术,充分体现云计算理念,已在IBM内部成功运行多年,并在全球范围内有众多客户案例. 该解决方案可以对企业现有的基础架构进行整合,通过虚拟化技术和自动化技术,构建企业自己拥有的云计算中心,实现企业硬件资源和软件资源的统一管理.统一分配.统一部署.统一监控和统一备份,打破应用对资源的独占,从而帮助企业实现云计算理念. 云计算解决方案由以下部分构成: @ 需

Apache Spark机器学习.1.6 机器学习工作流和Spark pipeline

1.6 机器学习工作流和Spark pipeline 在本节中,我们介绍机器学习工作流和Spark pipeline,然后讨论Spark pipeline作为机器学习计算工作流的优秀工具是如何发挥作用的. 学习完本节,读者将掌握这两个重要概念,并且为编程和实现机器学习工作流的Spark pipeline做好准备. 机器学习的工作流步骤 几乎所有的机器学习项目均涉及数据清洗.特征挖掘.模型估计.模型评估,然后是结果解释,这些都可以组织为循序渐进的工作流.这些工作流有时称为分析过程. 有些人甚至定义

IBM和Neon恩怨终结对大型机意味着什么?

也许有人曾以为在6月,IBM会因为Neon为大型机用户提供的软件降低许可成本,而和它爆发一次小规模冲突,但事情却朝相反的方向发展.5月31日,这一切都结束了, IBM和Neon之间的恩怨情仇都了结了.我们一起回顾一下双方冲突的历史.结果以及结果对大型机和大型机用户产生的影响. Neon zhttp://www.aliyun.com/zixun/aggregation/3436.html">Prime和IBM诉讼的背景信息 本世纪初,IBM推出了三种处理器型号:Integrated Faci

用机器学习流程去建模我们的平台架构

Spark 提供了一个新的体系,spark.ml. 相对于spark.mllib,这是一个更高层的对机器学习流程的一个抽象.然而,你会神奇的发现这套抽象,竟然也适合服务平台的设计与建模.更让我印象深刻的是,一个合适的抽象,简直就像真理一样.譬如RDD这种就是一个和神一般的抽象,它使得Spark成为了一个非常通用的平台,囊括了流式计算,离线计算,机器学习,图计算等多个领域. spark.ml 在一开始就提出了五个概念.这五个概念也完全可以对一个通用的service platform进行建模和抽象.

解读|IBM已转型为认知解决方案云平台公司

今天的朋友圈被IBM刷屏了.IBM已经很久没有上头条了.其实说它要转型不是什么新闻,真正需要认真分析的是IBM给自己确定的两个方向.下面计世资讯就此次IBM全球重大部门调整及业务转型进行四点快速评论: 一.失去领先地位.非变不可 IBM在相当一段时间里已经处于利润下降.业务亮点不足的被动局面,在云计算,大数据,移动互联网,社交网络等IT产业的热点领域都没能占据领先的市场地位,甚至在部分重点市场领域还出现举棋不定.业务战略摇摆迟疑.研发跟进乏力的状态.IBM的确到了必须做出改变的时刻. 二.壮士并

IBM 开源主要关注 Spark,Docker,Node 和 Go

近期 IBM 推出开源项目门户,计划开源 50个项目.在 IBM 开源门户 DeveloperWorks中有大量的开源项目都是为了提升 Spark 性能来优化 Docker 的网络管理. IBM 当前推出的 DeveloperWorks 开源门户主要是 IBM 已经开源的软件集合,这些开源项目最主要的有 5 个主要的类别,分为 Node.js 开发,Spark 数据处理框架,Go 语言 和 Docker 容器. Spark Kernel (Spark/Scala/IPython) IBM 对 S