网友解读:大数据处理工具哪家强?

文章讲的是网友解读:大数据处理工具哪家强,近年呈爆发之势的大数据随着两会的召开再次被聚焦,在两会议题中成为高频词汇。各大报道中,利用大数据打造智慧城市、促进金融行业发展、建立两会大数据平台……两会委员“提案夹”中关于大数据的提案层出不穷。“大数据外部环境推动着商业模式及行为的变化,对于企业来说,不对大数据善加利用就等于折了翅膀。面对亟待处理的庞大数据资源,企业遇到了哪些困难?处理数据的“利器”该如何选择?

  Hadoop高人气获最佳工具,魅力何在?

  当讨论到“你认为的最佳大数据处理工具是?”这个问题时,在众多网友回答中,Hadoop的出现频率是最高的,获得了一致的赞赏票。

  网友unusa表示:“选择工具时首先考虑你的业务场景,再看看自己的经济实力和人员的技术水平。我们现在使用的基本上都是Hadoop,Spark还处于研究阶段,而Hadoop已经比较稳定了,而且,现在技术人员好招点了。”网友lixunpeng经历过两个企业,均由开发或运维使用Hadoop工具。

  网友415829566强调:“在选择工具时,需要考虑你实际的业务,而不是一味的追主流。现在的大数据处理工具各有优缺点,所以结合实际业务很重要,我平时比较常使用的是hadoop。”网友yehuafeilang也符合道:“每一个工具都是适应不同的大数据场景的,所以很难说哪一款最好。”

  正如网友所说,流行远不如契合自身业务场景,那么大家最需要的功能都有什么?对应场景为何?而Hadoop的优势又在哪里?

  网友smilefish说“我们公司最需要的工具是可视化分析工具,数据的可视化对我们来说十分重要。所以我们已经在考虑使用商业大数据云处理平台,一定程度上能够节省时间,减少维护成本。”网友1983yu表示,目前其所在公司使用频率最高的功能还是系统日志分析功能,暂时能够满足企业所需。网友unusa提到:“我们需要方便快捷的文本信息处理与统计工具。”网友王江玉也附和道:“我们遇到的困难也是不知道怎么筛选有效数据。”

  网友bfmo分析:“我们对工具的处理速度、容错性、异构数据间转换、可维护性以及时间成本都有要求。我们使用过很多款工具,但在实时性较强的场景,还是Hadoop与 storm结合起来使用比较好一些。在管理使用方面,简化操作流程,传统的ETL工具使用比较简单,可维护性很高。而对于海量数据来说,Hadoop的分布式优势更强大些。”网友415829566也表示:“Hadoop的优势在于其数据量较大,安全机制比较好,且稳定性较强。它的劣势在于处理的时间相对于后面新出的如spark之类的工具来说是比较慢的,另外MR开发比较难,没有基础很难入门。”

  网友邓昳轶表示:“Hadoop最开始主要能解决存和查的问题,适合大批量数据,抢的是ETL和存储厂商的饭碗。有了spark,明显拓宽了Hadoop的能力范围,现在触角已经伸到BI和挖掘领域去了。”

  网友1983yu详细的列出了其选型Hadoop时所考虑的因素,以及对应解决方法,供大家参考:

  • 1、根据数据分析需求。根据不同的用户案例和应用,企业用户可能需要支持不同类型的分析功能,使用特定类型的建模(例如回归、聚类、分割、行为建模和决策树)。大数据分析工具能够广泛支持高水平、不同形式的分析建模,是否能满足自身的数据分析需求,都是重要的考量。在了解大数据分析工具之前,不妨先明确自身的数据分析目标。
  • 2、就是不盲目追求高性能。高性能的大数据分析工具固然优秀,但同时也伴随着高额的部署费用与后期维护费用。而且脱离自身业务需要而一味的追求性能也是不理智的,况且"牛刀杀鸡"不代表就能做的更好。从自身需要出发,不选最好的,只选最适合的。
  • 3、数据兼容性。在多种数据库并存,且数据量大,数据格式多(包括结构和非结构化数据)的情况下,一定要考虑大数据分析工具能否完全兼容。如国云数据的大数据魔镜,除了能够兼容十几种数据格式,还能支持多种格式数据库的数据存取。这并非哗众取宠的画蛇添足,而是基于实际需求的功能拓展。
  • 4、团队协作。企业规模越大,越有可能需要跨部门、在诸多分析师之间分享分析、模型和应用。企业如果有很多分析师分布在各部门,对结果如何进行解释和分析,可能会需要增加更多的共享模型和协作的方法。例如IT部门和业务部门的管理人员需要频繁交流,以确保业务部门的商务智能信息需求始终得以理解和满足5.预算。当你只有一辆自行车的预算时,就不要考虑汽车的价格。虽然有些残酷,但这就是事实。特别是对于中小企业来说,国外大数据分析工具动辄数十万乃至上百万的部署费用是难以承受的。在资金不足时,可以选择一些低价位或是免费试用的大数据分析工具试试水,比如大数据魔镜的云平台版本,就是免费试用的。

  商用大数据服务雄起,网友怎么看?

  除自建系统外,近两年,一些互联网企业也逐渐输出自身大数据能力,为企业用户提供服务。去年,阿里巴巴就利用阿里云的数据可视化技术,助某地方政府整合线上线下经济数据。这种将大数据能力变成标准化产品的方式,受到更多关注。

  对此,网友隐剑埋名表示:“大数据服务的选择肯定还是要比较有名气的,甲骨文靠谱。”而网友xkf01则表示会选择供给资源多的、门槛低易用的服务。网友liu3617现在的公司用的也是oracle和IBM。最后,网友Stephen调侃道:“不差钱的金融厂还是用HANA吧!”

  然而,并不是所有企业都能接受商业大数据服务,尤其是一些创业型企业。网友1983yu表示:“目前,大数据处理所用都是我们公司自己的,最多用用软件,用人家平台还是要考虑成本问题的。”网友unusa赞同道:“暂不考虑商用平台,没有钱。”

  其实,大数据处理已经势在必行,如果无法承担商用平台的费用,那么,分析自身业务需求及场景是首要的,接下来再综合考虑成本及各类工具的功能等因素,选出最契合自身的工具。总之,用的贵不如用的对!

作者:崔月

来源:IT168

原文链接:网友解读:大数据处理工具哪家强?

时间: 2024-10-30 09:37:34

网友解读:大数据处理工具哪家强?的相关文章

从理论到实践的剖析,一网打尽13款开源Java大数据处理工具

什么是大数据?你可能会问; 更重要的是为什么它是在几乎所有业务领域的最新趋势?由于事实上"大数据"是一个非常简单的术语 - 它正是它说 - 一个非常大的数据集.有多大?确切的答案是"一样大,你能想象"!这个数据集怎么能这么大规模大吗?因为数据可能来自任何地方:RFID传感器来收集流量数据,用来收集气象信息的传感器,从手机的GPRS数据包,社会媒体网站,数码照片和视频,在线购买交易记录你的名字!大数据是一个巨大的数据集可能包含从产生数据,,当然前提是这些信息是我们感兴

大数据时代你不得不了解的大数据处理工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这 种惯

CIO调查:企业需要高速大数据处理工具

不足为奇,现在大多数企业越来越重视大数据.但是可能会引起质疑的是,很多企业机构表示依赖大数据的实时处理来推动其业务,以及宣布说正在考虑把其大数据转移到云的公司数量. 这些发现来自由GigaSpaces最近发起的一个调查,在询问了在各行业的243名IT高管,关于他们的大数据感知和计划.分布式应用程序环境和一个开放的平台即服务(PaaS)云部署堆栈的端到端扩展解决方案的提供者,在2012年的秋天期间进行了在线调查. 调查结果包括: 约80%的受访者表示,大数据处理是一项至关重要的功能 超过70%的人

大数据处理工具Hadoop是否有些名不副实?

近来多次和百度.阿里.腾讯.中移动数据中心的架构师进行交流,同时也在网上的论坛/社区主导大数据分析范例的一些讨论,与互联网/云开发人员进行沟通.由此,我愉快地发现,大数据分析在中国非常普遍:不光是星巴克.纸牌屋等美国文化元素在中国广受追捧;Hadoop也受到广泛接纳,并且在中国的云开发人员的讨论中占据了主导地位.但是,和其他流行事物一样,人们在追捧讨论的同时也会考虑它当前的热度是否合理."如果我讲Hadoop有些名不副实,会不会有人来踢馆?"--可能全世界的主管和开发人员都在考虑这个问

一共81个,开源大数据处理工具汇总(上)

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

Hadoop:稳定、高效、灵活的大数据处理平台

如果你和别人谈论大数据,那么你们很快就会把话题转到那只黄色的大象身上--Hadoop(它的标志是一只黄色大象).这个开源的软件平台是由Apache基金会发起的,它的价值在于能够简便且高效地处理超大型数据. 但是,究竟什么是 Hadoop呢?简单地说, Hadoop是一个能够对大量数据进行分布式处理的软件框架.首先,它将大量的数据集保存在分布式服务器集群中,之后它将在每个服务器集群里运行"分布式"数据分析应用. 那Hadoop又有什么特殊之处呢?首先,它很可靠,即使某一个或某一组服务器宕

oracle大数据处理方式

从网上查询关于数据库大数据处理的方案,有很多不错的Blog,提出很多的解决方案,所以呢自己也想整理一下关于这方面的内容,如果只是把别人整理的总结Copy到这就没什么意思了,甚至在面试的时候会经常被问到怎么样来处理大数据和高并发的解决方案,再说了网上也有很多重复的内容,把一篇文章Copy来Copy去的!来点个人见解吧! 现在的做的Java WEB项目有几个算得上是大数据的,很少的,基本上整个数据库加起来也就几十万条的数据量,像那些数据量相当大的网站或是系统基本上都是有很多服务器或是配置很高的服务器

大数据处理技术的趋势-五种开源技术介绍

大数据领域的处理,我自己本身接触的时间也不长,正式的项目还在开发之中,深受大数据处理方面的吸引,所以也就有写文章的想法的了.大数据以Hadoop以及"NO SQL"为主的Mongo和Cassandra等数据库技术在展现.现在数据的实时分析将可能容易一些.现在集群的转换将越来越可靠,20分钟以内就能够完成.因为我们用表来支持?但是这些是仅仅是一些比较新的,未开发的优点和不平凡的大机会超过了这些常规的猜想. 你知道么,在现在的市场上超过25万个开源技术出现了.围绕在我们身边,这些越来越复杂

大数据处理技术—R的数据分析制霸

随着大数据被更多的企业采用,大数据处理分析算法编写和生产语言也得到了广泛的关注.而在不知不觉中,开源统计语言R已基本成为大数据科学家和开发者的必备技能.在所有编程语言和技巧中,人气急剧上升. 以下为译文 通过与大数据处理工具整合,R提供了大数据集的深度统计能力,包括统计分析以及数据驱动的可视化等.而在金融.药物.媒体及销售这些可直接从数据中获取决策的行业中,R更得到了深度应用. 根据Rexer Analytics 2013年对数据挖掘专业人员的调查显示,R已经成为当下最流行的统计分析工具,至少有