Splunk——大数据处理的实时引擎

大数据已经成为影响各行各业的热词，鉴于中国庞大的用户基础，对中国企业而言，大数据的影响也更为深刻。

2013年8月6日，Splunk公司在北京举办了探讨大数据如何落地的研讨会，分享了大数据给各个领域带来的变革、大数据技术在中国落地的前沿观点以及Splunk大数据方案的实施案例。

“数据正以几何的速度在增长，其中最复杂的也最有价值的数据细分市场是机器数据，所有这些像服务器、安全装置、传感器等基础架构产生的数据都是机器数据，这些机器数据记录了方方面面的行为。”Splunk产品营销副总裁Sanjay Mehta说道。Splunk所定义的机器数据，包括了文件或者文件目录、syslog、Windows事件日志、Windows注册表、Windows性能指标、Unix/Linux日志和指标、文件完整性监视、配置文件、OPSEC LEA、Cisco设备日志、IIS日志、Apache日志、WebSphere日志/指标和其他数据、以及任何其他数据。

对于一些用户而言，Splunk可能显得有些陌生，谈到Splunk的业务以及产品定位，Sanjay将Splunk的软件比作分析大数据的引擎，他表示：“Splunk公司主要处理大数据，对这些大数据进行分析，给我们的客户、组织带来价值，而且，我们能保证以低成本的进行实时地分析，允许用户使用我们的技术对数据进行收集、监控、分析，而且进行可视化。目前，Splunk公司的产品和技术已经应用到各行各业，其中包括保险、政府、媒体领域。”

Splunk广泛应用大数据领域

如今，Hadoop已经成为热门的开源架构，也使得很多企业以低成本的方式来存储自身的数据，但是Sanjay表示，要想从Hadoop框架上存储的数据获得价值是一个具有挑战性的工作，跟其他软件相比，Hadoop的部署使得成本上降低了，但是需要有更好的服务才能保障，据很多用户反映，对Hadoop部署的服务能力往往跟不上需求的发展，Hadoop上的数据太大而无法随意、容易的进行迁移。

Sanjay介绍，Splunk产品的优势正是在Hadoop存储数据的基础上，进行数据的收集、分析和展现，以Splunk6月份推出的分析工具Hunk为例，因为放在Hadoop上的数据，可能是非结构化的，也可能是结构非常随意的数据，Hunk是专门处理放在Hadoop上的数据的工具，用于探索、分析和可视化Hadoop中的数据。

Splunk的目的就是让用户直接在Hadoop上直接分析数据，而且部署的方式简单，全球的银行用户每天有超过20TB的数据放置到Splunk中进行处理。

随着数据的量与日俱增，对新产生的数据进行实时分析并与以往的数据进行比较是非常必要的工作。根据用户的反馈，Sanjay表示，目前Splunk的产品主要应用于五大领域，一是应用于对应用程序进行端到端的管理，了解性能指标；二是日常IT运维的管理，比如带宽和基础架构的使用情况；三是信息安全领域，可以收集安全相关的数据，进行分析保证系统安全；四是针对web应用的智能分析，随着各行各业的业务走向线上，重视对用户行为的分析，因此销售和业务人员也能从中收集到价值；五是与互联网相关的领域，以及RFID收集的数据。

不管是全球还是中国，Splunk的产品已经被广泛接受并部署应用，目前已经在90多个国家和地区，用户达到5600多家。在应用案例方面，Sanjay介绍，Splunk帮助百事公司在北美使用销售的手持终端来了解销售数据的情况，并为在线的SaaS供应商Salesforce提供了完整的平台，此外，MetroPOS、沃达丰都通过Splunk大大提高了数据分析的效率。

大数据分析的引擎

Splunk的本质是针对机器数据的分析引擎，Splunk高级销售工程师崔玥表示，Splunk产品针对所有IT系统和基础设施数据，提供数据搜索、数据报表和可视化的展现。当然，作为一款软件，它几分钟就可以完成下载和安装，支持各种主流的操作系统平台。

作为一个完全整合的大数据解决方案，Splunk通用的引擎能够将任何的机器数据广泛地索引，并支持任何格式的数据，而无需进行格式转换实时的搜索引擎，带来了类似于Google的快速搜索结果；而其自主开发的类似于MapReduce的分布式架构，为系统的可扩展性提供了保证，能够轻松扩展到支持每天新增上百TB的数据，配合基于角色的数据访问控制，还能够跨多个数据中心运行。

“总体而言，Splunk独特优势体现在是通用的数据引擎，支持任意格式定义，具备强大的搜索和报表语句，软件安装后，可以通过浏览器来登陆，并进行数据来源的定义，选择数据路径、数据类型等操作。”崔玥说道。

原文发布时间为：2013-08-14

时间： 2024-10-28 21:30:30

Splunk——大数据处理的实时引擎

Splunk——大数据处理的实时引擎的相关文章

大数据处理系统关键层次架构

大数据处理：百分点实时计算架构和算法

全球第一家大数据处理的上市企业Splunk的毛利竟然高达80%

用于实时大数据处理的Lambda架构

In-Stream Big Data Processing译文：流式大数据处理

用Apache Spark进行大数据处理—入门篇

广告系统中的大数据处理 | 宋慧庆

开源大数据查询分析引擎现状

Spark大数据处理系列之Machine Learning