Splunk——大数据处理的实时引擎

大数据已经成为影响各行各业的热词,鉴于中国庞大的用户基础,对中国企业而言,大数据的影响也更为深刻。

2013年8月6日,Splunk公司在北京举办了探讨大数据如何落地的研讨会,分享了大数据给各个领域带来的变革、大数据技术在中国落地的前沿观点以及Splunk大数据方案的实施案例。

“数据正以几何的速度在增长,其中最复杂的也最有价值的数据细分市场是机器数据,所有这些像服务器、安全装置、传感器等基础架构产生的数据都是机器数据,这些机器数据记录了方方面面的行为。”Splunk产品营销副总裁Sanjay Mehta说道。Splunk所定义的机器数据,包括了文件或者文件目录、syslog、Windows事件日志、Windows注册表、Windows性能指标、Unix/Linux日志和指标、文件完整性监视、配置文件、OPSEC LEA、Cisco设备日志、IIS日志、Apache日志、WebSphere日志/指标和其他数据、以及任何其他数据。

对于一些用户而言,Splunk可能显得有些陌生,谈到Splunk的业务以及产品定位,Sanjay将Splunk的软件比作分析大数据的引擎,他表示:“Splunk公司主要处理大数据,对这些大数据进行分析,给我们的客户、组织带来价值,而且,我们能保证以低成本的进行实时地分析,允许用户使用我们的技术对数据进行收集、监控、分析,而且进行可视化。目前,Splunk公司的产品和技术已经应用到各行各业,其中包括保险、政府、媒体领域。”

Splunk广泛应用大数据领域

如今,Hadoop已经成为热门的开源架构,也使得很多企业以低成本的方式来存储自身的数据,但是Sanjay表示,要想从Hadoop框架上存储的数据获得价值是一个具有挑战性的工作,跟其他软件相比,Hadoop的部署使得成本上降低了,但是需要有更好的服务才能保障,据很多用户反映,对Hadoop部署的服务能力往往跟不上需求的发展,Hadoop上的数据太大而无法随意、容易的进行迁移。

Sanjay介绍,Splunk产品的优势正是在Hadoop存储数据的基础上,进行数据的收集、分析和展现,以Splunk6月份推出的分析工具Hunk为例,因为放在Hadoop上的数据,可能是非结构化的,也可能是结构非常随意的数据,Hunk是专门处理放在Hadoop上的数据的工具,用于探索、分析和可视化Hadoop中的数据。

Splunk的目的就是让用户直接在Hadoop上直接分析数据,而且部署的方式简单,全球的银行用户每天有超过20TB的数据放置到Splunk中进行处理。

随着数据的量与日俱增,对新产生的数据进行实时分析并与以往的数据进行比较是非常必要的工作。根据用户的反馈,Sanjay表示,目前Splunk的产品主要应用于五大领域,一是应用于对应用程序进行端到端的管理,了解性能指标;二是日常IT运维的管理,比如带宽和基础架构的使用情况;三是信息安全领域,可以收集安全相关的数据,进行分析保证系统安全;四是针对web应用的智能分析,随着各行各业的业务走向线上,重视对用户行为的分析,因此销售和业务人员也能从中收集到价值;五是与互联网相关的领域,以及RFID收集的数据。

不管是全球还是中国,Splunk的产品已经被广泛接受并部署应用,目前已经在90多个国家和地区,用户达到5600多家。在应用案例方面,Sanjay介绍,Splunk帮助百事公司在北美使用销售的手持终端来了解销售数据的情况,并为在线的SaaS供应商Salesforce提供了完整的平台,此外,MetroPOS、沃达丰都通过Splunk大大提高了数据分析的效率。

大数据分析的引擎

Splunk的本质是针对机器数据的分析引擎,Splunk高级销售工程师崔玥表示,Splunk产品针对所有IT系统和基础设施数据,提供数据搜索、数据报表和可视化的展现。当然,作为一款软件,它几分钟就可以完成下载和安装,支持各种主流的操作系统平台。

作为一个完全整合的大数据解决方案,Splunk通用的引擎能够将任何的机器数据广泛地索引,并支持任何格式的数据,而无需进行格式转换实时的搜索引擎,带来了类似于Google的快速搜索结果;而其自主开发的类似于MapReduce的分布式架构,为系统的可扩展性提供了保证,能够轻松扩展到支持每天新增上百TB的数据,配合基于角色的数据访问控制,还能够跨多个数据中心运行。

“总体而言,Splunk独特优势体现在是通用的数据引擎,支持任意格式定义,具备强大的搜索和报表语句,软件安装后,可以通过浏览器来登陆,并进行数据来源的定义,选择数据路径、数据类型等操作。”崔玥说道。


原文发布时间为:2013-08-14


时间: 2024-10-28 21:30:30

Splunk——大数据处理的实时引擎的相关文章

大数据处理系统关键层次架构

在数据存储层,还有很多类似的系统和某些系统的变种,这里,我仅仅列出较为出名的几个.如漏掉某些重要系统,还请谅解. 以下是对上图中各层次架构的说明 一.数据存储层 宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营. ACID是指数据库事务具有的四个特性:原子性(Atomicity).一致性(Consistency).隔离性(Isolation).持久性(Durability).ACID中的一致性要求比较强,事务执行的结果必须是使数据

大数据处理:百分点实时计算架构和算法

当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因.以百分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求.如何从这些数据中快速挖掘用户兴趣偏好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题.本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和心得体会,供读者参考. a) 实时计算架构 图 1百分点大数据平台原理示意图 工欲善其事,必先利其器.一

全球第一家大数据处理的上市企业Splunk的毛利竟然高达80%

互联网诞生以后,软硬件的更新换代有着摩尔定律做背书,整个世界的运转速度也好像变快了,诚如马云所说:大家还没搞清PC时代的时候,移动互联网来了;还没搞清移动互联网的时候,大数据时代来了. 大数据概念最早由全球知名咨询公司麦肯锡提出,在2010年左右成为业界.媒体以及大众中的流行词汇,包括Splunk在内的一些主打大数据概念的企业也在这些年快速扩张,业务范围覆盖北美.亚太.欧洲.非洲及至中东等地区.2012年4月19日,Splunk在纳斯达克成功上市,成为第一家上市的大数据处理公司,并在首个交易日以

用于实时大数据处理的Lambda架构

1.Lambda架构背景介绍Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架.Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lambda架构是其根据多年进行分布式大数据系统的经验总结提炼而成.Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构,包括有:高容错.低延时和可扩展等.Lambda架构整合离线计算和实时计算,融合不可变性(Immunability),读写分离和复杂性隔离等一系列架构原则,可集成Hadoop

In-Stream Big Data Processing译文:流式大数据处理

转自:http://blog.csdn.net/idontwantobe/article/details/25938511  @猪头饼 原文:http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/ 作者:Ilya Katsov 相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twi

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp

广告系统中的大数据处理 | 宋慧庆

什么是大数据? 从具备4V(Volume,Velocity,Variety,Value)特征的大量数据中挖掘用户的潜在价值. 广告系统的数据来源 DSP监听数据(主要是ssp,adx渠道) 广告主数据 广告投放过程中收集的数据 购买/通过交换得到的第三方数据 运营商合作数据 精准广告的系统特点 数据量巨大(广告本身的数据,定向数据,用户特征数据,广告展示环境的特征数据) 响应速度要求特别快 实时性要求特别高(广告数据,定向数据,用户特征数据,广告展示环境的特征数据等实时性) 系统可用性要求特别高

开源大数据查询分析引擎现状

引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce. Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项 目是建立在Hadoop上的数据仓库基础构架,提供了一

Spark大数据处理系列之Machine Learning

本文是<Spark大数据处理>系列的第四篇,其他三篇:Spark介绍. Saprk SQL和 Spark Streaming . 最近几年,机器学习.预测分析和数据科学主题得到了广泛的关注.Spark的机器学习库(Spark MLlib),包括各种机器学习算法:协同过滤算法.聚类算法.分类算法和其他算法. 在前面的<Spark大数据处理>系列文章,介绍Apache Spark框架,介绍如何使用Spark SQL库的SQL接口去访问数据,使用Spark Streaming进行实时流式