数据开源工具:Hadoop为企业带来什么?

熟悉大数据的人一定不会对大名鼎鼎的Hadoop工具陌生,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。这核心的两点为其成为数据挖掘平台打下基础。

Hadoop为企业带来什么?

随着主存储器成本的不断下降,和过去相比,公司可以将更多的数据存到存储器中。并且,将多台计算机连到服务器集群也变得更容易了。大数据时代的来临,让数据挖掘也变得越来越重要。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。

大数据时代

而对于企业来说,要想让大数据变为智能数据,首先要将这个“庞然大物”抽丝剥茧,也即数据挖掘。在这方面Hadoop平台真是强项,这也是众多企业在大数据领域使用Hadoop的原因。之所以选择Hadoop,是因为它给企业带来了价值。具体来讲,又有哪些方面呢?

第一,Hadoop具有成熟的生态圈

成熟的生态圈代表的未来的发展方向,代表着美好的市场前景,成熟的方案和系统可以让公司或者企业节省大量探索的时间与经历。

Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关,如今它已经迅速发展成为分析大数据的领先平台。

第二,成本低

企业项目投资一直需要考虑投入和产出的问题:有效控制成本,可以从另一个方面扩大收益。

在软件层面,与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

在硬件层面,Hadoop是架构在廉价的硬件服务器上,不需要非常昂贵的硬件做支撑,随之而来,其维护的成本也会降低。

第三,高效性

国内外的企业都在收集大量的数据资料,当数据量达到一个量级之后,其处理会变得十分困难,这真是数据挖掘的用武之地。Hadoop正是为了解决了这样的问题而诞生的。其底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提交计算效率,同时可以存储各种格式的数据。

另外,Hadoop还支持多种计算框架,既可以进行离线计算也可以进行在线实时计算。

第四,低风险

Hadoop可以迅速监测异常风险,并在数据层放置自动化解决方案,可以最大程度地预防和避免风险事件的发生。

另外,Hadoop有着比较高的容错率,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

本文作者:佚名

来源:51CTO

时间: 2025-01-31 05:42:55

数据开源工具:Hadoop为企业带来什么?的相关文章

中小企业部署数据可视化工具的六种策略

文章讲的是中小企业部署数据可视化工具的六种策略,为中小企业服务的超本地化营销平台产生出大量数据,但是当地很多企业都不太清楚应该如何处理.数据可视化工具可以为企业提供一种探索商业智能信息的途径,它们将表格整理并分解成数字和数据点,形成直观的图形和图表. 大型零售商多年来一直使用数据可视化工具帮助他们做出战略性商业决策,在某种程度上归功于其庞大的预算和专业的IT团队;小企业则受制于数据可视化工具的高额成本和软件复杂度.随着技术的发展,中小企业使用数据可视化工具的障碍逐渐消除,越来越多的中小企业开始部

数据虚拟化工具已进入IT战略领域

数据虚拟化工具已经存在多年了,但鉴于现如今的企业都在积极的整合和访问来自网络.社交媒体和物联网(IoT)等各种来源的数据,使得这一技术的重要性正在越来越多的从企业的战术层面转向为战略层面. 在本次专家问答访谈中,来自雅典娜IT解决方案公司的创始人兼数据管理专家里克·谢尔曼为我们解释了为什么数据虚拟化应该成为企业CIO们的雷达;较之传统的数据集成工具其为企业所带来的好处;如何使用数据虚拟化来提高企业的竞争优势;以及哪些行业是这一技术的早期采用者.   为什么说对于企业的CIO们而言,数据虚拟化是一

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角"写评论",分享你的观点. 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非

荐六十款针对Hadoop和大数据顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一

Cloudera为Hadoop带来机器学习开源工具Oryx

Hadoop发行商Cloudera去年收购伦敦的创业公司Myrrix时,并未引起业界太多关注,其后Cloudera也很少宣传公司在机器学习方面的技术.但是Myrrix的的技术和其创始人Sean Owen在机器学习方面的价值和影响力不容小觑. Owen目前正在开发一个开源机器学习项目--Oryx(大羚羊,Cloudera还销售一款产品叫黑斑羚,Impala). Oryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型,例如垃圾邮件过滤和推荐引擎.随着数据的不断流入,Oryx还将支持

强烈推荐!大数据领域的顶级开源工具大集合

随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的优势越来越明显. 如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析.借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡. 以下是一些大数据方面的顶级开源工具,分为四个领域:数据存储.开发平台.开发工具和集成.分析和报告工具. 数据存储: Apache Hadoop– Cloud Foundry(VMware), Hortonworks, Hadapt NoSql 数据库 – M

基于大数据分析系统Hadoop的13个开源工具

Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo!DougCutting根据Google发布的学术论文研究而来.用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序.低成本.高可靠.高扩展.高有效.高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS和MapReduce组件却让其一度陷入困境--批处理的工作方式让其只适用于离线数据处理,在要求实时性的场景下毫无用武之地.因此,

解决大数据的开源工具

针对大数据的开源源代码平台变得十分流行.在过去的几个月里, 似乎几乎每个人都感觉到了影响. 低成本.灵活性和适用于受过训练的人员是开源繁荣的主要原因.Hadoop.R和NoSQL是现在许多企业大数据策略的支柱,不管他们是否用它管理非结构化数据或执行复杂的统计分析." 几乎难以跟上它:SAP AG最近发布了一个新的产品, SAP BusinessObjects预测分析,软件整合了开源R语言的算法,该语言广泛使用在针对高级统计模型的学术社区. 几周之前, Teradata公司宣布其新的整合分析组合将

数据可视化工具是否可容开源一席之位?

目前,商业工具在数据虚拟化软件市场占据主导地位,但在数据管理和分析等领域,开源技术开始迎头赶上,比如D3.js数据可视化库,Leaflet地图库,再加上附加交互可视化功能的R语言(一种广泛用于统计分析的编程语言). 当然,对于开源数据可视化工具也有一些批评的声音,例如有人认为这些工具的使用门槛太高,使用者必须具备大量代码知识,还要经过专门培训.不过,熟悉开源可视化工具的用户透露,随着技术部署的不断深入,这些可视化产品用起来会越来越得心应手.而对于R语言,很多软件供应商都为企业用户提供商业产品.