解决大数据的开源工具

  针对大数据的开源源代码平台变得十分流行。在过去的几个月里, 似乎几乎每个人都感觉到了影响。

  低成本、灵活性和适用于受过训练的人员是开源繁荣的主要原因。Hadoop、R和NoSQL是现在许多企业大数据策略的支柱,不管他们是否用它管理非结构化数据或执行复杂的统计分析。”

  几乎难以跟上它:SAP AG最近发布了一个新的产品, SAP BusinessObjects预测分析,软件整合了开源R语言的算法,该语言广泛使用在针对高级统计模型的学术社区。

  几周之前, Teradata公司宣布其新的整合分析组合将包括R功能以及到GeoServer的一个连接,一个基于java的开源地理定位平台。无数其他公司正急于建立链接到Hadoop。

  广泛的采用狂热的创新

  James Kobielus,曾任Forrester研究公司的分析师 (他现在IBM公司大数据分析解决方案产品营销任高级项目主管),在一封电子邮件中这么写道,“开源方法有最广泛采用的势头和最狂热的创新”。

  但急什么?

  首先, Kobielus解释说,正如开源产品的范围从Mozilla到 Android,在诞生的阵痛之后已经在IT社区赢得广泛的接受,开源数据存储和分析软件现在已经成熟了(“不再是一两年以前高风险的赌注”,正如他所说的那样)。

  其次, Kobielus写道,像Hadoop, R和NoSQL这样的平台比专门的软件享有优势, 因为它们能更快地演变。他们也在不断开发并为各种团体所改进。他预测, 开源很快将会主宰大数据市常

  “随着封闭式源码软件的足迹在很多数据/分析环境中的萎缩,许多现有的供应商将朝着开源的方向发展他们的商业模式,”他写道,“也会加大专业服务及系统整合以帮助客户走向开源的、基于云的分析,其中大部分集中在Hadoop和R。

  例如,Forrester把Hadoop看作是下一代企业数据仓库 (EDW) 在云的核心,而把R看作是未来一波大数据开发工具主要的代码库。我们也期望各种开源NoSQL数据库和工具联合成为替代封闭内容分析产品的丰富选择。”

红帽(Red Hat)模型

  不同的企业以不同的方式接近开源整合。有些企业,像SAP,选择使用他们自己内部的专家使用 Hadoop或R的功能开发产品,而其企业,像Teradata移交了大量的工作给像革命分析公司(Revolution Analytics Inc.)这样有些像红帽公司的大数据公司。该公司面向企业提供一种商业版的R, 就像红帽公司对Linux所做的那样。

  一家小公司站在大数据巨头之间,这家公司专门为不同的业务流程的修改R,革命分析公司(Revolution Analytics)营销和社区副总裁David Smith说, “尤其是, 我们让它运行在真正的大数据集上。”

  在产品中使用开源是公司在市场中突出自己的一种方式, Smith说。“根据定义, 这意味着你不做竞争对手在做的事。”

  Smith说, 对于大数据分析采取先进的、科学的态度的企业,开源技术是一种自然的选择。“那些公司有一点数据科学的文化,对数据有探索和好奇心,真的已经被开源技术所吸引,因为它们如此灵活,并且向他们提供这些不同的方法思考数据并用这些数据探索不同的事情。”

  革命分析的合作伙伴,Teradata实验室的总裁Scott Gnau说,大型企业将从开源技术的商业软件套装中受益最多,这样他们能持续专注于他们的特定业务线。

  “在采用一些新技术中有很多价值被创造,在Hadoop和MapReduce的环境中开发,但将它们作为一种企业级的软件,有可靠的版本控制,并有可靠的可扩展性和有可得到的支持。

  “它必须被打包并可靠地进入主流,因为大多数企业并不想集中去作软件开发”他说。

  EMC Greenplum的产品营销经理Will Davis表示赞同。他说, 规模较大的公司需要更稳定、可靠的开源大数据平台化身,不管他们是否添加了自己的改进或依赖别人来帮他们做。

  “很多企业…EMC的传统客户, 财富500强的之类的企业, 真的需要该技术的部署适用于企业, 以满足严格的服务级合同(SLA) ,并总是在线可用的,”他说。

  一些早期的开源技术采用者开发出专业知识单干,但“第二波”的公司渴望可以快速建立并运行。 它们可能没有自己员工来作做开发的工作。

引入数据科学家

  目前对大数据才确实是有巨大的需求,而且企业正意识到运行开源平台成为可以吸引到受过训练的的人才的最佳位置。开源技术,尤其是R,被广泛应用于学术界。

  此外,这些数据科学家能更好地利用开源平台。Imran Ahmad是一个数据科学家,他已经开发了自己的网格计算算法,称为Bileg的Hadoop竞争对手,它是基于开源的Globus 工具箱(GT4)的。多伦多一家为云环境开发数据分析技术的Cloudanum公司总裁说,开源平台最根本的优势是,像他这样的人能看到它根本的数学依据。

  “如果在开源上,您可以向下挖掘并看到为什么我得到这些结果,为什么这些结果是最优的,”Ahamad说。

  专有数据分析软件大多数时候能很好地工作,他补充道。但是当一个“不寻常的场景”出现时, 让你无法信任你的结果。“它们将偏离你要找的东西,”他说。“这真是一种正可怕的情况”。

  毫不意外,有统计建模背景的聪明才智也供不应求,尤其是像如金融机构这样其它领域的机构正在求贤若渴。

  “他们已经聘请了大批校外的人到数据科学部门或研发部门和建模部门,” Smith说,“而他们发现这些人都学习过R,而不是所说的SAS。”

  所以毫不奇怪,有统计建模背景的聪明人才被求贤若渴,尤其当像金融行业大量招聘他们的时候。

  “我们提供Greenplum的咨询业务,”Davis说,“这是我们的数据科学团队, 这些人是博士, 已经是各种行业及其相关行业的专家。我有聪明而勤奋的人 ,坦白说, 这些人正与客户一起让他们的数据发挥作用。”

  SAP集团营销经理Jason Kuo说,需要执行比如预测分析这样复杂任务的公司无疑正在搜寻着高校的人才。他说, SAP的新产品组合了一个友好用户界面和拖放功能,将易于数据科学家转换角色到企业的世界里。

  “这些人带着他们的R专长, R的背景,并寻求和R相关的工具,”他说。“现在有趣的是,在学术环境中,不管出于什么原因,不管是它的廉价或者熟悉度,他们更有可能使用没有GUI的 R,而不用图形界面。而现在他们走进企业的世界, 在那里他们的要求更高了, 项目转变的框架更快, 也许正在追踪投资回报率(ROI)等等。

  “公司能说…你需要什么才能更成功? 我们如何能使你更有效率? 和他们为这些统计师准备了在过去不会有的预算。”

  如果你不能战胜他们

  SAS研究公司平台开发副总裁Paul Kent,为一家经常被视为属于大数据领域的对立面的公司工作,开发了专有数据分析算法替代那些用于像R这样的开源语言。

  Kens说, 在某种程度上, SAS并把开源社区作为一个并肩齐驱的竞争者。新技术可以在开源环境中非常迅速地开发,而他的公司在将技术转化成适合市场的产品功能之前可能需要更多的时间来研究它们。

  “我们需要更多一点时间对技术作出反应并测试所有的不同角落和排列你可能使用它的方式。所以, 我们的响应可能有点慢。

  然而,他说,SAS在大型的技术支持市场有优势,而且有使技术适用于不同机构的专业知识,无论是零售企业、银行、或医疗机构。SAS的优势在于“对特殊领域的数学应用。”Kent说。

  与此同时,他说,SAS掌握趋势,并给它的客户一样的开源选项。Kent说SAS已经“修建一座到R的桥梁”就像它对Hadoop所做的那样。Kent表示,每当开源社区有了好的创意,SAS都会关注。

  “从长远看,搭建桥梁或界面到这样的创意是有用的,胜过试图假装它不存在。”

  原文链接:http://www.chinabi.net/Article/binews/201209/2227.html

时间: 2024-09-20 18:35:20

解决大数据的开源工具的相关文章

荐六十款针对Hadoop和大数据顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱.弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,"100%的大公司"会采用Hadoop.Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长:到2020年,市场产值会超过10亿美元.IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一

盘点:55个最实用大数据可视化分析工具

文章讲的是盘点:55个最实用大数据可视化分析工具,近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取.归纳并简单的展现.传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息.新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集.筛选.分析.归纳.展现决策者所需要的信息,并根据新增的数据进行实时更新.因此,在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具

盘点最实用56个大数据可视化分析工具

俗话说的好:工欲善其事,必先利其器!一款好的工具可以让你事半功倍,尤其是在大数据时代,更需要强有力的工具通过使数据有意义的方式实现数据可视化,还有数据的可交互性;我们还需要跨学科的团队,而不是单个数据科学家.设计师或数据分析员;我们更需要重新思考我们所知道的数据可视化,图表和图形还只能在一个或两个维度上传递信息, 那么他们怎样才能与其他维度融合到一起深入挖掘大数据呢?此时就需要倚仗大数据可视化(BDV)工具,因此,笔者收集了适合各个平台各种行业的多个图表和报表工具,这些工具中不乏有适用于NET.

对话Hadoop之父Doug Cutting|大数据和开源的未来

前言 对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点.不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国大数据产业发展的澎湃动力. 在Hadoop生态领域,Cloudera是规模最大.知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一.带着对中国大数据市场的满满诚意,Cloudera创始人.董事长兼首席战略官Mike Olson以及Hadoop之父.Cloudera

mysql-利用MySQL数据库如何解决大数据量存储问题?

问题描述 利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,Value,DataTime).基本上每张表每天可以增加几千万条数据,我想问如何存储数据才能不影响检索速度呢?需不需要换oracle数据库呢?因为我是数据库方面的新手,希望可以说的详细一点,万分感谢!!! 解决方案 查询业务是怎么样

小数据:解决大数据难题的“良药”

当前,随着大数据日渐炙手可热,大数据的应用也在逐渐深入,然而,围绕大数据的争论却从未停止过,依然非常激烈.其中一个原因就是,尽管前景美好.潜力巨大,但在"大体量"数据利用及实现商业价值的过程中往往充满挑战.非常棘手. 如首先,需要强大的机器和经验丰富的数据科学家将原始信息及庞大数据转化为洞察力.在这个过程中,如何去分配正确资源,并跨部门和学科去释义这些信息都非常困难.而当我们从数据中抽离出洞察见解之后,下一步该如何去利用这些洞察也一样充满困惑. 那么,在目前阶段,该怎么办呢?笔者认为解

选择一款大数据可视化展示工具,要几步?

众所周知,选择一款好用的大数据可视化展示工具是很多企业的共同问题.现在市面上,有很多的大数据可视化工具,国内外的,价位也不同.但是如果能万里挑一,选中一款适合自家企业的大数据可视化BI产品,可以说如虎添翼,实现企业大数据完美落地之路.因为,优秀的大数据可视化展示工具,不仅仅是使用敏捷,而且还可以帮助企业家更好地做决策,这一点是很多大数据可视化工具很难实现的一个高度. 那接下来就回到本文的主题:选择一款大数据可视化展示工具,要几步?其实,挑选BI工具没有固定的步骤,只是说在挑选过程中,客户应该看重

大数据BI可视化工具:改变了企业高层的管理思维

       大数据BI可视化工具的诞生,改不了很多企业的运作模式.数据化运营.数据化思维被大肆宣传推广,每一个现代的企业家都需要具备最基本的数据运营思维模式.那么,作为一个企业高层管理者,怎样在引入一款大数据BI可视化工具之后迅速建立或者说转换自己的管理思维,并迅速适应工具的运用?小编在这里为您分享一点观点. 企业在导入数据化管理的过程中,对管理者的数据思维培养是一项必要的工作.管理者没有数据思维,企业的数据化管理将是空的,数据会被管理者放置到一边,而无法起到应有的作用. 数据化管理是企业的管

大数据就是一门工具,解决业务问题才是王道

尽管,大数据可以为企业的管理带来变革,也可以带来思想和文化上的变革.然而,所有的变革依然要转化或者依赖于最为基础的应用和操作. 所以,大数据首先就是一门工具,用来发现业务规律和探知业务问题的工具. 首先, 大数据可以发现业务规律和特征. 任何客观事物,包括企业的运营管理及市场行为,都会留下"数据"足迹.而对数据的分析和理解,就能够把握业务的特征及规律. 简单地,如下所示,我收集产品销售的数据记录,然后按照时间维度(按周)对产品销量进行统计,可视化化后得到如下所示的折线图. 我相信绝大多