Spark与Hadoop两大技术趋势解析

文章讲的是Spark与Hadoop两大技术趋势解析,开源数据集如今深受开发者喜爱,比如谷歌的Images dataset数据集,YouTube-8M数据集等。通过对数据集里的数据进行分析,可以发现许多隐藏信息,比如客户喜好、未知相关性,市场趋势以及其他有用的商业信息。大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。说到大数据分析,16年基本被Spark与Hadoop霸屏,到底是什么样的魔力让它们足以引起大数据世界的波动,未来又会如何发展呢?

  Apache Spark

  Apache Spark起源于加州大学伯克利分校,对于复杂分析来说是一个十分不错的开源处理引擎。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。每一个Spark应用程序,都由一个驱动程序组成,运行用户的main函数,并且在一个集群上执行各种并行操作。

  

  Spark提供的主要的抽象概念是具备容错能力的弹性分布式数据集,一个覆盖整个集群的只读多重数据项集。弹性分布式数据集(RDD)帮助实现交互式算法,通过多次访问数据集,实现交互式数据分析,应用延迟可以有不同程度上的减少,机器学习系统训练算法的交互性是使用Apache Spark的初始动力。以下是对Apache Spark的分析,看看是哪些特性使Apache Spark如此火热吧。

  1、快速处理

  大数据的处理速度至关重要,Apache Spark通过减少磁盘读写次数,降低磁盘I/O,使Hadoop集群上的应用程序操作比内存中快一百倍,比磁盘快十倍。

  2、易用,支持多种语言

  Spark允许使用Java,Sacla甚至Python进行快速编写。开发人员不仅可以使用熟悉的编程语言也可以运行这些应用程序。Spark本身自带了一个超过80个高阶操作符集合。而且还可以用它在shell中以交互式地查询数据。

  3、支持复杂分析

  除了Map和Reduce操作之外,Spark还支持SQL查询,流数据,机器学习和图表数据处理,此外,用户可以把所有这些功能都放在一个工作流中使用也可以单独使用。

  4、实时流式处理

  Apache Spark支持实时流式处理,它可以在进行数据操作的同时使用Spark Streaming。

  5、与现有Hadoop及其上的数据整合

  Spark可以在Hadoop Yarn集群管理器上独立操作,包括读取Hadoop上的数据。该特性使Spark十分适用于现有纯Hadoop应用程序的迁移。

  6、基于Hadoop的多核服务器

  大部分企业逐渐从昂贵的大型机和数据仓库平台向基于Hadoop的多核服务器转型。Hadoop是一个由java语言编写而成的开源分布式系统基础架构,其支持分布式环境中的大型数据集的存储和处理操作。很多公司都将Hadoop作为其大数据平台进行使用。

  Hadoop

  Hadoop是由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

  

  1、低成本的数据存储

  与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低。

  2、高效

  Hadoop可以运行分析算法,因为它被设计用来处理各种形式的大数据。在Hadoop上进行数据分析可以使分析更高效,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

  3、批量数据处理

  Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是Hadoop的一大创举,分布式存储使文件存放在众多节点上,只需要一个节点去记录文件的元数据信息(主要是文件的位置),访问文件时先访问元数据节点,获取文件所在的位置, 然后在获取文件即可。此外,MapReduce也可以做大数据处理,即以价值为导向,对大数据加工、挖掘和优化等各种处理。其思想就是“分而治之”,将大任务分成若干小任务处理。

  4、与数据仓库相辅相成

  有很多数据集被从数据仓库卸到Hadoop平台上,或者一些新的数据会直接到Hadoop中。企业无非就是希望有一个好的平台来存储、处理、分析数据,以支持可以被集成在不同级别的不同用例。

  5、物联网和Hadoop

  据预测,未来20年物联网对全球GDP的贡献将会增长10到15万亿美元左右。物联网的核心是流和大数据。Hadoop被用来进行多事务数据存储,数据,统计算法和机器学习指出基于历史数据分析得到未来趋势的可能性。对过去进行分析是了解未来很好的一个途径,通过预测分析,未来的物联网世界将更加纯粹。

  未来怎么走?

  技术的变革、更新换代,本身是好事,但很多时候,人才的培养跟不上技术变革的脚步。即便是最先进的学府可能都还未来得及更换教科书,这时对企业来说,新技术带来的超高性价比就显得毫无意义了,因为相应的人力成本在上升。

  有些人很喜欢及时更新知识储备,认为新技术的出现会取代旧技术。但各有各的好,新欢不一定敌得过旧爱,要看需求,别跟风。不过,越是Spark、Hadoop炒得火热,理性思考的人就越少,很多人只是浮于表面,这对技术的发展十分不利。

作者:zyy

来源:IT168

原文链接:Spark与Hadoop两大技术趋势解析

时间: 2025-01-21 06:19:09

Spark与Hadoop两大技术趋势解析的相关文章

压力传感器十大技术趋势解析

压力传感器的功能目前变的很强大,因为目前很多场合都需要安装这类产品,所以不管是哪个国家的压力传感器都在不断的升级和提高,基尔中国也在研发更高端的压力传感器,压力传感器是使用较为广泛的一种传感器,它一般由弹性敏感元件和位移敏感元件组成.弹性敏感元件的作用是使被测压力作用于某个面积上并转换为位移或应变,然后由位移敏感元件或应变计转换为与压力成一定关系的电信号. 压力传感器是运用较为广泛的一种传感器,它通常由弹性灵敏元件和位移灵敏元件组成.弹性灵敏元件的作用是使被测压力作用于某个面积上并转换为位移或应

数据播报 | 福布斯发布2017年17大技术趋势:中国将成为全球最大机器人市场

每年,福布斯都会发布对未来1年的大事预测.本月早些时候,福布斯也照例与Frost & Sullivan前瞻创新团队的未来学家.分析师和顾问们,一起发布了对2017年17大技术趋势预测. 其中,福布斯预言,在2017年,中国可能开始在机器人领域发挥其潜力,令其他国家望尘莫及. 本期数据播报,美女主播维维将为我们讲述福布斯2017年又做出了哪些预测,上班路上不想低头看手机的读者请猛戳下面的音频,或者点击文末阅读原文跳转我们的喜马拉雅专栏收听节目. 大数据文摘"数据也疯狂"播报栏目每

Hadean完成260万美元融资,将颠覆 Spark、Hadoop等大数据框架

众所周知,利用算法分析不同规模的数据量时所需要的服务器资资源是不一样的 .许多企业在做大数据分析时,尤其是数据量非常庞大时,所需要的服务器资源仍是一笔无法避免巨大开销. 然而一家来自伦敦的公司近期声称他们创新型的解决了这一难题,他们的解决方案将在无须占用任何工程资源的前提下用算法对任意规模数据进行运算与分析. 听起来虽然不可思议,但资本还是用真金白金给出了回复.伦敦的Hadean今日完成了260万美元的种子轮投资,投资方为White Cloud Capital 和 Entrepreneur Fi

数据中心未来网络两大技术之争:Neutron和SDN

网络是数据中心里最为保守和封闭的系统.网络的很多技术是私有的,封闭的,这样的技术在云计算和大数据的时代显然过于保守了,不适应新技术的发展.网络技术已经成为阻碍新技术革新的绊脚石,正因为此,数据中心的很多新技术都是基于网络做出的.所以,数据中心网络是技术变化最大的一块,新的技术也是层出不穷,让人看得眼花缭乱.这里拿出了两块最新的网络技术Neutron和SDN,做个对比分析.在对比介绍中,就可以了解到两大技术的特点,这两大技术可能是未来的发展方向. 可能很多人并不知道Neutron,但是如果提起Op

云计算物联网Hold住未来十大技术趋势

本文讲的是云计算物联网Hold住未来十大技术趋势,据国外媒体报道,思科首席未来学家.首席技术学家戴夫-埃万斯(Dave Evans)称,在未来十年内,物联网.云服务和虚拟人类等十大技术发展趋势,将深刻地改变我们的世界. 埃万斯预测的首个技术趋势是"物联网"(The Internet of Things).他表示,互联网将从信息和交易媒体演变为社交网络,促使人们实时分享知识和集体智慧."我们正处在一个转折点上--新技术应用方式急剧变革和创新的时代即将开启,它将会让人类受益无穷.

对Gartner发布2017年十大技术趋势的分析

近日Gartner公司着重介绍了在2017年对多个组织具备战略意义的重大科技发展趋势.分析师在座无虚席的Gartner ITxpo座谈会介绍了他们的发现.这次发布的十大技术趋势报告,可以总结概括为:以智能为中心,通过数字化实现万物互联. Gartner将战略科技发展趋势定义为具有颠覆性潜力.脱离初级阶段且影响范围和用途不断扩大的战略科技发展趋势,这些趋势在未来五年内迅速增长.高度波动.预计达到临界点. "2017年十大战略科技发展趋势为Gartner智能数字网(Intelligent Dgita

论数据中心虚拟化两大技术代表:容器和虚拟机

如今,虚拟化技术在数据中心内已经生根发芽,应用非常普及,无论是在服务器.还是网络.存储等设备中都是如此.虚拟化技术起源于服务器,后来在网络设备中也出现,虽然都叫虚拟化技术,但是实现的原理是完全不同的,网络设备中的虚拟化也不能像服务器中的虚拟化可以虚拟化出数百或上千的虚拟设备,实现的技术也完全不同.本文着重讲述的是服务器中的虚拟化技术.服务器是数据中心最为重要的组成部分,所有的应用服务都要安装在服务器上,并运行,所以服务器上的虚拟化技术与应用最为密切相关.从早年的虚拟机技术到如今的容器技术,都是虚

5G话语权的争夺,通信巨擘爱立信要靠这两大技术对抗华为?

在今年的MWC上,芯片商.通信设备商以及运营商这三股势力正式吹响了从4G到5G迈进的口号.而在5G商用之前,企业对核心技术的掌控能力将决定话语权的高低,这样的竞争对通信设备商而言显得尤其重要. 作为一家拥有140多年历史的老牌通信设备巨头,爱立信的地位在4G时代就遭遇到了华为.中兴这两家企业的冲击.但在5G的研发上,爱立信的表现并不逊色于任何一家企业.仅在今年短短的3个月内,爱立信就动作频频:先是携IBM共推硅基毫米波相控阵IC,后又联合韩国SK电讯完成全球首个洲际5G网络测试.....特别是相

GitHub 2018 6大技术趋势:所有公司都是数据公司,开源软件成为传统软件最大竞争对手

2017年是人工智能和机器学习的一年.2017取得的进步将会持续多年,但2018年我们能期待什么呢?数据正在上升,安全性.云计算和开源将得到更多重视.GitHub技术高级副总裁Jason Warner分享了他对2018年主要技术趋势的预测. 数据将统治一切 在过去几年里,云1.0是关于云计算的,云2.0则是关于数据的.这包括数据移动(data movement)以及支持它的工具和服务,例如分析系统和机器学习系统.今天,所有的公司都是数据公司,不管它们自己是否知晓.2018年,只要团队懂得如何使用