机器大数据也离不开Hadoop

  根据数据来源划分,大数据主要包括三类:商业运作产生的数据、人类行为产生的数据和机器数据。目前,人们谈论最多的是前两类数据的处理和分析。创立于2004年的Splunk公司独树一帜,从公司成立之初就一直专注于机器数据的处理和分析。Splunk公司产品营销副总裁SanjayMehta在接受本报记者采访时表示,机器大数据未来具有非常广阔的发展前景。

  机器大数据有可为

  何为机器数据?人们的每项活动都会在机器数据中留下痕迹,这些数据包含客户行为、使用事务处理、应用程序行为、服务水平等的明确记录,像人们非常熟悉的日志文件、传感器数据等都是机器数据。SanjayMehta表示:“机器生成的数据是发展最快、最复杂同时也是最宝贵的那部分大数据。但是现有的数据分析、管理和监控解决方案很少有为这类数据设计的。”

  机器数据处理的难点在于以下三方面:机器数据来自于不同来源,而将这些不同来源关联起来十分复杂;机器数据主要是非结构化的,很难用预先定义的架构来处理;机器数据对实时处理的要求非常高。Splunk的产品被外界称为机器数据的引擎,它能够有效应对机器数据的种种挑战,收集非结构化的时间序列机器数据,并编制索引加以利用。SanjayMehta表示,Splunk可以读取人们能够想到的任何来源的数据,比如网络流量、Web服务器、自定义应用程序、应用程序服务器、虚拟机管理程序、GSP系统甚至股市源、社交媒体和结构化数据库的数据,并通过它们实时掌握业务状况,深入分析在整个IT系统和基础设施中发生了什么,从而做出正确决策。

  增强Hadoop的易用性

  “我们的某些客户告诉我们,他们要使用Hadoop,希望以更低成本来存储数据。但问题是,如果想部署Hadoop并基于它获得更多价值并不是一件容易的事。部署Hadoop所花费的人力和服务可能是部署普通软件的20倍。如果想充分发挥Hadoop的作用,至少要将13个项目与Hadoop进行集成。另外很多客户反映,Hadoop平台上的数据量太大而无法随意迁移。”SanjayMehta表示,“2012年10月,我们推出了SplunkHadoopConnect,让用户可以简单、方便地在SplunkEnterprise和Hadoop之间转移数据。”

  SplunkHadoopConnect打通了Hadoop与Splunk产品平台之间的传输通道,用户可以将Splunk平台上的数据传输到Hadoop平台上进行长期存储。Hadoop上的数据也可以实时地传输到Splunk上进行分析和可视化。

  对于很多客户来说,最棘手的问题是Hadoop上的数据量太大,无法随意移动。

  2013年6月22日,Splunk发布了Hunk测试版——SplunkAnalyticsforHadoop,它提供了针对Hadoop平台的互动数据探索分析和可视化功能,这为用户使用Hadoop平台提供了更多便利。

  SplunkAnalyticsforHadoop是一个全功能的集成的产品,针对Hadoop上的数据在同一个平台上提供了互动的数据探索、分析和可视化三种必要的功能。“SplunkAnalyticsforHadoop为用户提供了一个简单、易用的界面,不仅专业人员可以使用,即使普通的管理人员也能使用它对数据进行访问和分析。以前可能要花几个月时间来了解和分析数据,现在使用SplunkAnalyticsforHadoop,可能只要一小时甚至几分钟。”SanjayMehta表示。

  SplunkAnalyticsforHadoop是首个采用Splunk虚拟索引技术(正在申请专利)的产品。用户通过它可以无缝使用Splunk的所有技术,包括Splunk搜索处理语言(SPL)等。它可以实现互动地探索、分析和可视化存储在任何地方的数据,就像这些数据存储在SplunkIndex中一样。SanjayMehta介绍说:“未来,我们会把更多技术创新反馈给Hadoop社区。目前,我们正在邀请特定的用户参与Hunk的测试。”

时间: 2024-07-29 13:54:02

机器大数据也离不开Hadoop的相关文章

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

大数据热门职业薪酬榜 Hadoop人才居首

文章讲的是大数据热门职业薪酬榜 Hadoop人才居首,随着越来越多企业开始投身于大数据技术的革新洪流,对于IT专业人士的市场需求也水涨船高.时至今日,具备收集.整理.分析以及构建不同来源数据技能的人才正迎来自己职业生涯的上升期. 在当下的数字化时代,数据量的丰富程度远远超过历史上的任何时期,很多时候这种丰富程度甚至成为一种沉重的负担.企业开始将大量资源投入到云技术.移动技术以及社交媒体当中.结合这些新兴领域,再加上企业自身运营所必然产生的信息,我们发现目前需要收集的数据总量单单用"爆炸式&quo

大数据来袭 传统数据库的Hadoop梦想

大数据时代已经来临,并悄悄的影响着我们的生活.根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布.Facebook和其他所有互联网网站.互联网应用,已经逐渐变成了整个数据采集.分析.处理.增值的数据架构. 在中国,社交网络同样如火如荼.新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博.每位用户的平均在线时长为60分钟,活跃用户中有60%通过

一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具.锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. 大数据,首先你要能存的下大数据. 传统的文件系统是单机的,不能横跨不同的机器.HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据

大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统

从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS).影像存档和通信系统(PACS).电子病历系统(EMR)和区域医疗卫生服务(GMIS)等成功实施与普及推广,而且随着日新月异的计算机技术和网络技术的革新,进一步为数字化医院带来新的交互渠道譬如:远程医疗服务,网上挂号预约. 随着IT技术的飞速发展,80%以上的三级医院都相继建立了自己的医院信息系统(HIS)

大数据仍然离不开人的赋予

大数据意义重大,这是毋庸置疑的一件事,但最终当我们真正弄清楚如何充分利用大数据时,也许它并没有开始认为的那么了不起.现在的我们处于一个比较混乱的中间时段,一方面我们认识到了这些数据的价值,而另一方面大多数组织机构和政府并不知道如何利用这些数据以充分发挥其作用. 在最近一期的<经济学人>,有两篇文章描述了大数据发展的现状.首先我们要说的是<打破常规>( Out of the box )这篇文章,该文谈到开放数据的承诺,这个承诺到现在仍未实现.文章认为,开放数据不仅可以促进透明度的提升

大数据的救世主:Apache Hadoop和Hive

Apache Hadoop和MapReduce吸引了大量大数据分析专家和商业智能专家的眼球.然而将Hadoop分散文件系统广泛化,或能用Java语言编写或执行Mapreduce工作则需要真正严格上乘的软件开发技术.Apache Hive将是唯一的解决办法. Apache软件基础工程Hive的数据库组成部分,也是基于云的Hadoop生态系统,提供了基于语境的查询语句称作Hive查询语句.这套语句将SQL类查询语句自动翻译成MapReduce工作指令. 相关数据库,如IBM DB2,Oracle和S

大数据领域开源技术 除了Hadoop你还知道哪些

众所周知,大数据正在以惊人的速度增长,几乎触及各行各业,许多组织都被迫寻找新的创造性方法来管理和控制如此庞大的数据,当然这么做的目的不只是管理和控制数据,而是要分析和挖掘其中的价值,来促进业务的发展. 想要深入发展大数据,闭门造车是不可能的,共通共融是现在趋势,因此,开源让越来越多的项目可以直接采用大数据技术.如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析.借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡. 开源大数据的优势不言而喻,但在众多

公司的大数据业务为什么都基于Hadoop方案

选择Hadoop的原因主要有以下三点:1.降低成本;2.生态圈成熟;3.可以http://www.aliyun.com/zixun/aggregation/7432.html">解决问题. 一.可以帮助我们解决什么问题 现在不管是在国内外的大公司,对于大数据都是非常的渴望,会想尽所有的办法搜集一切的数据,由于现代信息的不对称从而导致不断的数据变化,大量的信息是可以通过数据分析获取. 数据的来源有非常多的途径,大数据的格式也将会越来越复杂,时间的推移产生的数据也会越来越大.所以在数据的存储上