hadoop比spark的优势?

问题描述

hadoop比spark的优势?

最近入门spark,但是网上都是说spark的优势,速度快。可是现在很多企业是hadoop结合spark,说明hadoop也有他的优势面?
所以hadoop比spark优势,更擅长什么?

解决方案

spark确实在一定方面比mapreduce快,比如机器学习的迭代过程,spark是把中间的数据保存在内存中,在每次迭代的时候直接从内存中提取,而mapreduce一直是IO传输,速度比spark慢。但是在相对的比较大,长时间处理与存储的数据来说,还是hadoop相对来说有可取的地方,所以很多企业都是结合起来用,或者更改源代码来获得更大效率

时间: 2024-09-29 18:19:49

hadoop比spark的优势?的相关文章

科普文:从大数据到Hadoop,Spark,Storm

大数据,官方定义是指那些数据量特别大.数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理.大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V. 大数据中的数据量非常巨大,达到了PB级别.而且这庞大的数据之中,不仅仅包括结构化数据(如数字.符号等数据),还包括非结构化数据(如文本.图像.声音.视频等数据).这使得大数据的存储,管理和处理很难利用传统的关系型数据库去

使用Hadoop还是Spark到底怎么决断?

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.或许我们可以这样说,Hadoop是大数据的启蒙,借助Hadoop让企业步入了大数据时代.而最近几年,Spark的风头似乎超越了Hadoop.而且网上有一种声音就是Spark将会取代Hadoop成为大数据的统治者,事实上是这样么?且听笔者娓娓道来. 其实,Hadoop与Spark不存在冲突,因为Spark是运行于Hadoop顶层的内存处理方案,也就是说目前部署Spark的企业,其实都在现有的Hadoop集群中运行Spa

企业拥抱大数据,Hadoop 和Spark渐受欢迎

虽然国内大数据相较国外起步较晚,但增长态势却一路上扬,完美诠释了典型的"中国速度",不仅是企业和政府用户对于大数据的认知在提升,而且在搭建平台和提供数据服务方面,企业用户也开始了更为深入的探索. 来自中国信通院的数据显示:2016年中国大数据市场规模将达到16.8亿元人民币,增速为45%,预计未来3年(2017-2020年),增速将稳步保持在30%以上. 市场风生水起,离不开政府层面的扶持.国家"十三五"规划纲要明确表示:实施国家大数据战略是"十三五&qu

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据

Spark修炼之道(进阶篇)——Spark入门到精通:第二节 Hadoop、Spark生成圈简介

作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 Hadoop生态圈 Spark生态圈 1. Hadoop生态圈 原文地址:http://os.51cto.com/art/201508/487936_all.htm#rd?sukey=a805c0b270074a064cd1c1c9a73c1dcc953928bfe4a56cc94d6f67793fa02b3b983df6df92dc418df5a1083411b53325 下图给出了Hadoop生态圈中的重要

《Spark与Hadoop大数据分析》——1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析.RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点. 传统数据仓库的设计思想是用于提取.转换和加载(Extract, Transform, and Load,ETL)数据,据此回答与用户需求

WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark

如今,随着云计算.移动互联网.物联网.大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力.对于互联网企业,最有价值的数据都蕴藏在网站的日志中.从日志中,我们可以知道网站的访问量,应用的使用量.用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求. 但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性.近日,51CTO记者采访了[WOT2016互联网运维与开发者峰会]特邀讲师,又拍云C

Dr. Elephant:Hadoop和Spark的优化“神器”

美国加州软件公司Pepperdata的应用程序分析软件建立在Dr. Elephant(Dr. Elephant 是Hadoop和Spark的性能监视和调优工具)开源项目上.主要目的是让更多的Hadoop和Spark应用程序投入生产. Pepperdata的应用程序分析器作为早期访问版本,基于去年推出的Apache开源项目Dr. Elephant.Dr. Elephant项目的贡献者包括Airbnb,Foursquare,Pepperdata等. Dr. Elephant软件通过活动日志解析,适用

使用Docker在本地搭建hadoop,spark集群

本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷.这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的基础,本文重点在于docker相关的操作,至于hadoop和spark集群的部署,极力推荐这两个网页: Hadoop集群:http://blog.csdn.net/stark_sum ... 24279. Spark集群:http://blog.csdn.net/stark_sum ... 58081 主