为什么很多公司的大数据相关业务都基于 Hadoop 方案？

　　选择Hadoop的原因最重要的就是这三点：1，可以解决问题； 2，成本低； 3，成熟的生态圈。

　　一，Hadoop帮助我们解决了什么问题

　　无论国内还是国外的大公司对于数据都有着无穷无尽的渴望，都会想尽一切办法收集一切数据，

　　因为通过信息的不对称性可以不断变现，而大量的信息是可以通过数据分析得到的。

　　数据的来源途径非常的多，数据的格式也越来越多越来越复杂，随着时间的推移数据量也越来越大。

　　因此在数据的存储和基于数据之上的计算上传统数据库很快趋于瓶颈。

　　而Hadoop正是为了解决了这样的问题而诞生的。其底层的分布式文件系统具有高拓展性，通过数据冗余保证数据不丢失和提交计算效率，同时可以存储各种格式的数据。

　　同时其还支持多种计算框架，既可以进行离线计算也可以进行在线实时计算。

　　二，为什么成本可以控制的低

　　确定可以解决我们遇到的问题之后，那就必须考虑下成本问题了。

　　1，硬件成本

　　Hadoop是架构在廉价的硬件服务器上，不需要非常昂贵的硬件做支撑

　　2，软件成本

　　开源的产品，免费的，基于开源协议，可以自由修改，可控性更大

　　3，开发成本

　　因为属于二次开发，同时因为有非常活跃的社区讨论，对开发人员的能力要求相对不高，工程师的学习成本也并不高

　　4，维护成本

　　当集群规模非常大时，开发成本和维护成本会凸显出来。但是相对于自研系统来说的话，还是便宜的很多。

　　某司自研同类系统几百名工程师近4年的投入，烧钱亿计，都尚未替换掉Hadoop。

　　5，其他成本

　　如系统的安全性，社区版本升级频繁而现实是无法同步进行升级所引入的其他隐形成本。

　　三，成熟的生态圈有什么好处

　　成熟的生态圈代表的未来的发展方向，代表着美好的市场前景，代表着更有钱途的一份工作(好吧，“三个代表”).

　　看图(引自：Hadoop Ecosystem Map ? myNoSQL）

　　部分系统归类：

　　部署，配置和监控 Ambari，Whirr

　　监控管理工具 Hue, karmasphere, eclipse plugin, cacti, ganglia

　　数据序列化处理与任务调度 Avro, Zookeeper

　　数据收集 Fuse,Webdav, Chukwa, Flume, Scribe ， Nutch

　　数据存储 HDFS

　　类SQL查询数据仓库 Hive

　　流式数据处理 Pig

　　并行计算框架 MapReduce， Tez

　　数据挖掘和机器学习 Mahout

　　列式存储在线数据库 HBase

　　元数据中心 HCatalog （可以和Pig，Hive ,MapReduce等结合使用）

　　工作流控制 Oozie，Cascading

　　数据导入导出到关系数据库 Sqoop，Flume， Hiho

　　数据可视化 drilldown，Intellicus

　　使用到的公司也非常的多

　　（引自： A New Version of the Hadoop Ecosystem Map）

时间： 2024-09-29 05:51:15

为什么很多公司的大数据相关业务都基于 Hadoop 方案？的相关文章

公司的大数据业务为什么都基于Hadoop方案

选择Hadoop的原因主要有以下三点:1.降低成本;2.生态圈成熟;3.可以http://www.aliyun.com/zixun/aggregation/7432.html">解决问题. 一.可以帮助我们解决什么问题现在不管是在国内外的大公司,对于大数据都是非常的渴望,会想尽所有的办法搜集一切的数据,由于现代信息的不对称从而导致不断的数据变化,大量的信息是可以通过数据分析获取. 数据的来源有非常多的途径,大数据的格式也将会越来越复杂,时间的推移产生的数据也会越来越大.所以在数据的存储上

大数据项目实践：基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统

从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS).影像存档和通信系统(PACS).电子病历系统(EMR)和区域医疗卫生服务(GMIS)等成功实施与普及推广,而且随着日新月异的计算机技术和网络技术的革新,进一步为数字化医院带来新的交互渠道譬如:远程医疗服务,网上挂号预约. 随着IT技术的飞速发展,80%以上的三级医院都相继建立了自己的医院信息系统(HIS)

普通程序员，如何转为当前紧缺的大数据相关人才?

前段时间跟候选人聊天,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识.他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代. 我其实已经听过很多人跟我说过类似的话.只不过不同人嘴里提到的词汇各有不同--大数据.数据挖掘.机器学习.人工智能-- 这些当前火热的概念各有不同,又有交叉,总之都是推动我们掌控好海量数据,并从中提取到有价值信息的技术. 程序员对这些技术跃跃欲试,知乎上「深度学习如何入门?」「

利用大数据发展业务的五个维度

对于大数据的前景,有53%的互联网专家和观察员相信,它将给社会的各个方面都带来积极的影响.大数据可以增加社会透明度.可以更好地分析系统性能等等,因此它在未来价值巨大. 除了以上优点,大数据还能创造新的商业模式.产品和服务.让我们来看看大数据的这些优点会给公司带来怎样的好处.以下是当今公司利用大数据发展业务的方法: 了解客户市场界的新规则是:市场人员可以影响公众对品牌的看法,但不能完全控制公众的交流内容.除了提供优秀的客户体验并精简市场推广活动,公司还需要靠大数据的支持来提供定制化的私人服务.

真正懂大数据的公司不说大数据

本文是对TalkingData创始人兼CEO崔晓波的深度专访,内容涵盖他的创业经历.融资过程及对数据的思考.崔小波,1993年到1997年在南开大学信管专业,上学不久,就因为其卓越的黑客才能被选入学校管理团队,并结识了王江民.求伯君.吴晓军等业界大佬.毕业后先在国企工作,两年后,即1999年就开始做网站,如:中国彩票网.51CP.融资网.棉花系统的交易系统.2002年1月进入BEA,一直工作到2010年. TalkingData的变迁:社交挖掘--推荐--数据分析 CSDN

6个公司的大数据岗位的面试经验

本人住在有人间天堂之称的城市,6年多开发经验,最近2年主要在做大数据相关的开发,最近考虑换工作,基本也只考虑大数据相关岗位.目前新工作已经找好,但想分享一下最近面试的失败一些经历(成功的那些就不讲了),吐槽吐槽,跟广大吃瓜群众分享一下过程中的经历心得,我的语文体育老师教的,还请大家莫怪. 1.公司:国内知名电信运营商,其下面的大数据研究院,面两轮一面:技术人员面,先自我介绍,项目经验相关介绍,问比较细,问了一些Hadoop.HBase的问题,JAVA基础,JVM内存分配小于32G原因,

Teradata天睿公司获评大数据Hadoop优化系统领域的领导者

ZD至顶网CIO与应用频道 06月06日北京消息:全球知名市场分析公司Forrester 的最新报告显示,全球领先的大数据分析服务供应商Teradata天睿公司(Teradata Corporation,纽交所:TDC) 被评为大数据 Hadoop 优化系统(Big Data Hadoop-Optimized Systems)的三大领导者之一.该报告为<Forrester浪潮:2016 年第二季度大数据 Hadoop 优化系统报告>,由 Noel Yuhanna 和 Mike Gualtie

全国41家媒体记者就贵州发展大数据相关问题提问

1.六项措施助力贵州大数据产业问:贵州为什么要发展大数据产业?贵州发展大数据产业的目标.具体举措是什么? 贵州省委常委.省委政法委书记.副省长.贵安新区党工委书记秦如培说,大数据作为一个战略性新兴产业,是贵州实现后发赶超的一个新的突破口.目前按初步规划,到2020年的总体目标是:贵州省大数据产业稳步快速发展,业务收入年增长超过25%.到2020年,大数据带动相关产业规模达到4500亿元.分三个阶段,第一阶段是基础构建期(2014-2015年).第二阶段是集群聚集期(2016-2017年).第三

IDC：银行业和制造业推动全球大数据和业务分析市场双位数增长

据IDC全球半年度大数据和分析开支指南称,全球大数据和业务分析(BDA)的收入将从2016年的1301亿美元增长到2020年的2030亿美元. "数据的可用性.新一代技术.向数据驱动决策转变的文化,这将继续成为对大数据和分析数据及服务需求的推动力,"IDC分析和信息管理副总裁Dan Vesset表示."这个市场在2015年收入达到1220亿美元之后,预计2016年的收入将增长11.3%,并且预计到2020年之前的复合年增长率为11.7%." "推动这一增长