Hadoop迎来Spark Stream 激发大数据应用新变革

作为数据中心市场毋庸置疑的领导者,英特尔对数据中心的看法吸引了行业人士的密切关注,也在很大程度上代表了行业未来的大趋势。

“信息与通讯技术正处在一个激动人心的时代,这集中体现在三个变化上,就是云计算、网络转型以及数据分析,正是这三大变化驱动了数据中心行业的发展。”英特尔公司高级副总裁、数据中心事业部总经理柏安娜(DianeM. Bryant)在IDF主题演讲中如此指出。


 云将无所不在

作为一项颠覆性技术,云计算已经出现了多年时间,展现出良好的成长性。其一,公有云上的交互会继续增加,例如微信红包仅推出2年,现在每个月可以发出40亿个;云端新服务每天都在推出,有越来越多的企业诞生在云中;其二,消费级服务是公有云主流,目前全球2/3的云计算能力在为消费者提供服务;其三,传统企业在私有云上的投资将继续增加,以增加效率和灵活性,并且利用云来创造新收益。

“未来我们会拥有数以十万计的云,能够交付数以百万计的服务,连接数十亿的设备,并产生几十亿TB的数据。而且云将大大扩展数字世界的边界,使得技术具有更大的、无处不在的可及性。”柏安娜表示。

要想迅速设置一个云环境并不简单,云技术的起点就是要拥有一个非常高效的技术架构,因为云解决方案要求基础设施能够共享并且具备自动化,能以低成本交付高性能,同时也能够促成服务的快速部署,既具备超大规模的敏捷性还能使数据中心进行更优运行。

因此,英特尔开发出了机柜式架构(RSA),能够实现资源的池化,根据工作的负载需求进行部署,并且推出了一个硬件抽象层,通过开放的API实现灵活的模块化基础架构,将正确的资源投放到工作负载上。柏安娜表示,英特尔正和VMI、微软、浪潮、戴尔、HPE等软件开发商和OEM厂商合作打造基于机柜式架构的解决方案,例如联想已经推出了超大规模管理和调度解决方案,让云计算部署和使用更加简单。

网络转型加速

灵活高效的计算基础架构背后,必须要有高带宽和低延迟的网络。柏安娜指出,当前网络不足以满足与日俱增的流量和应用需求。4G时代业界对NFV和SDN做了很多投资,为5G到来做准备。5G是无线通信网络的革命,不仅容量千倍地增长、峰值速率50倍的增长和延迟40倍的降低,还将支持各种新应用和场景服务。

比如对实时业务的支持,5G支持无人驾驶汽车,远程医疗服务,或者是在危险环境中远程重型设备的操控,也能够支持消费者服务和应急管理响应的一些政府服务、城市服务。“但是想做到这一切,网络必须要转型,网络必须实现虚拟化、软件定义和云化。”柏安娜说,网络连接是至关重要的,企业使用云需要始终不断地互联,从而不断推出新服务,找到新的收入来源。

为了促进网络转型,英特尔和开发者进行合作,在开源解决方案当中进行投资。“我们知道一旦有了标准的、开源的技术创新,我们就会看到技术创新速度明显加快;同时,要不断地推进我们的NetworkBuilder计划,为NetworkBuilder社区成员提供培训,给他们提供考架构和蓝图,来适配各种特殊的客户使用场景。最后,我们也要和成员一起进行市场推广,从而做大需求。”

英特尔在最近推出了至强处理器E5v4产品家族,其至强资源分配技术可以使网络功能充分虚拟化,并且带来了一系列的QoS能力。华为云核心网产品线副总裁王洪利也指出,基于x86的硬件已成为主流。在过去的十年里,英特尔一直和华为长期合作,华为云核心网已经走过虚拟化迈向了全面云化的NFV阶段,与全球用户签署了将近50个云化商用合同。

数据分析兴起

柏安娜提到的第三个趋势是数据分析,这也是英特尔当前的研发重点。柏安娜认为,数据是改变游戏规则的关键因素,原因在于云计算能够将服务进行连接并提供出去,且互联性得到了极大提升。此外,数据存储变得更便宜,过去十年服务器成本下降超过40%,存储成本下降超过90%,“摩尔定律告诉我们有足够的成本来存储海量的数据”。

在数据分析领域,英特尔的产品线横向扩展和纵向扩展,提供了非常丰富的产品,包括全套的微处理器的产品,从凌动、酷睿到至强、至强Phi,而且使用的是一个无缝的架构。除了处理器外,英特尔还提供了软件方面的支持,包括各种软件开发包,以加快各种应用交付速度。同时,英特尔还与各种开源组织合作,如Hadoop、Spark等,为数据分析应用提供优化和支持。

柏安娜表示,英特尔的可信分析平台(TAP),是一个开源的平台级服务,专门适合数据科学家和应用开发人员,能够为用户提供预测性的模型和数据模型服务。“我们欢迎大家参与TAP做出贡献,使得整个分析解决方案开发和部署变得更加简便,以此为基础,来为数据分析市场提供更多服务。”

这些产品全面支持当前蓬勃兴起的数据分析类应用,例如机器学习。科大讯飞研究院副院长王智国博士指出,科大讯飞的人工智能开放平台每天在线交互达到近20亿次,这些工作都离不开一个强大的计算平台。“我们和英特尔更加深度的合作,在源头上进行软硬件一体化整合,必将能够创造出更多更先进的人工智能解决方案,共同推动产业发展。”

批处理本是大型机时代的主题,近十年来随着HadoopMapReduce的关注度逐渐增加,批处理现在又重新成为热门主题。但是 Hadoop分布式供应商的高级管理人员认为,ApacheSpark和其它流处理架构正在改变现状。

JackNorris是MapR公司前任首席营销官及现任数据和应用高级副总裁,他认为,随着ApacheSpark加入Hadoop,我们将看到更多实时应用和批处理架构,事件流与大数据存储是配套的。

MapR公司与Hortonworks公司、Cloudera公司一起共同打造Hadoop并带来了商业价值。而现在,SparkStreaming和其它相关技术的出现给大数据应用带来了变化,这似乎刺激了Hadoop生态系统新一轮的变革。

Spark已经成为了原生Hadoop组件特别有用的补充。Norris估计MapR的Hadoop分布式用户有一半正在使用Spark,可能用于生产环境的不同场景。

他表示,Spark引发了一连串兴奋点,其中一部分原因是因为MapReduce编程比较困难,在早期MapReduce编程基本就是Hadoop计算的代名词。

“Spark使开发变得相对容易了。它引入了新的API,支持使用Scala和Python编程语言,这样开发应用就更方便了。同时,它还帮助实现了流分析的结构化,”Norris补充道。

Spark可以监视到事件到达并且执行自动聚合和过滤,从而把原始数据转化为有用信息,Spark使这些工作变得更加容易。Norris表示,一些应用由于整体系统限制不得不在批处理模式下工作,但是这种情况正在改变。

本文转自d1net(转载)

时间: 2024-09-08 15:23:29

Hadoop迎来Spark Stream 激发大数据应用新变革的相关文章

谢文:大数据推动新变革

在2009年甲型H1N1流感爆发的前几周,谷歌公司的工程师们在<自然>杂志上发表了一篇令公共卫生官员和计算机科学家感到震惊的文章,声称谷歌能够预测冬季流感的传播--不仅能预测到全美范围的传播,甚至可以将流感传染目标锁定到地区和州. 原来,谷歌是通过观察人们在网上的搜索记录来完成这个预测的.在流感爆发后,谷歌发现与流感这个关键词相关的搜索量也出现了爆发性的增长.每天,谷歌都会收到来自全球超过30亿条的搜索指令.在如此庞大的数据资源支撑和帮助下,谷歌通过对搜索相关性的分析做出了准确的预测. 这是去

大数据推动新变革

大数据正在贯穿从宏观社会到中微观市场的影响,中国要跟进,还得从打破信息壁垒与体制封闭开始. 在2009年甲型H1N1流感爆发的前几周,谷歌公司的工程师们在<自然>杂志上发表了一篇令公共卫生官员和计算机科学家感到震惊的文章,声称谷歌能够预测冬季流感的传播--不仅能预测到全美范围的传播,甚至可以将流感传染目标锁定到地区和州. 原来,谷歌是通过观察人们在网上的搜索记录来完成这个预测的.在流感爆发后,谷歌发现与流感这个关键词相关的搜索量也出现了爆发性的增长.每天,谷歌都会收到来自全球超过30亿条的搜索

Hadoop 2.0将发布 大数据的新突破在即

以往Hadoop似乎就是大数据的代名词.不过最近随着大数据应用的深入,大家已经越来越倾向于仅仅把它看成是大数据的一个存储工具了. 不过这并不一定就是坏事.把Hadoop当作廉价有效的存储正好是Hadoop下一阶段演进的的完美起点.今年夏天就要亮相的Hadoop 2.0将会令数据仓库中的信息以及非结构化数据池前所未有地容易访问. Hadoop大桶 自成为大数据工具以来,Hadoop就是一个非常棒的数据存储系统,但是需要开发Java应用来访问数据的MapReduce学习起来却比较困难. 当然,还有别

Spark成云计算大数据时代的集大成者

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手.Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理.图技术.机器学习.NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位. 伴随Spark技术的普及推广,对专业人才的需求日益增加.Spark专业人才在未来也是炙手可热,轻而易举可以拿到百万的

十八款Hadoop工具帮你驯服大数据作业

文章讲的是十八款Hadoop工具帮你驯服大数据作业,Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道.这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来.有些项目负责数据管理.有些负责流程监控.还有一些则提供先进的数据存储机制. Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持.在托管集群中提供按时租用服务.为这套开源核心开发先进的功能强化或者将自有工具添加

Hadoop挨批!专家认为大数据让研究困难

1 统计显示Hadoop挨批评 大数据这个概念由来已久, 也一直引人关注.很多人也认为大数据是大多数商业和科学问题的答案. 调查结果统计(图:paradigm4.com) 但是最新的一项http://www.aliyun.com/zixun/aggregation/32268.html">调查显示的结果和人们的心理预期并不相符.根据数据库专家Paradigm4的数据显示,近四分之三的科学家认为大数据使得他们的研究变得更加困难. 调查结果统计(图:paradigm4.com) 一项针对111

超越 Hadoop,Luigi 打通云端大数据管道

Liugi数据管线的可视化管理图 新的大数据开源技术和工具往往来自互联网公司,除了Facebook.Google和Twitter这样的巨头外,一些甚至是你想不到的互联网公司,例如Netflix和Spotify(音乐流媒体服务)也会贡献一些优秀的大数据分析开源工具(Suro和Luigi). 近日创业公司Mortar就将Spotify开发的开源大数据工具Luigi搬上云端,在亚马逊云上提供复杂的,涉及大量工具和数据库的大数据流水线处理服务,不论是否使用Hadoop,用户都可以用Luigi管理复杂的大

趋势预测:Hadoop将无法独自处理大数据

文章讲的是趋势预测:Hadoop将无法独自处理大数据,大数据的世界正在稳步发展壮大.随着数据数量和种类的不断膨胀,读者都想知道接下来会发生什么.Sriram Mohan博士是罗斯豪曼理工学院计算机科学和软件工程的副教授.同时他还兼任着Avalon咨询公司大数据解决方案高级顾问一职.他融汇理论与实践于一身,他绝对是回答"2014年企业大数据发展趋势"的正确人选.下面是他的一些独到见解. Hadoop将无法独自处理大数据 Sriram说,"Hadoop和MapReduce模式绝对

未来预测:Hadoop将无法独自处理大数据

Hadoop将无法独自处理大数据 Sriram说,"Hadoop和MapReduce模式绝对是解决大数据问题的方式之一.但你需要记住的是,按照目前的情况来看,Hadoop仅仅是对于批处理来说比较好.相信很快,我们同时需要能够实时处理这些数据."作为一名Hadoop顾问的Sriram并不是说这种无处不在的平台速度缓慢.使用这样一个强大的框架,大量数据可能在一分钟之内就处理完,但是那并不总是足够好.如何解决这个问题呢? Hortonworks公司战略副总裁Shaun Connolly指出,