应用Tableau、Vertica的可视化大数据分析框架

大数据分析、企业BI、数据可视化等话题在坛子里日趋火热,新的技术,架构也层出不穷,今天借此文跟大家分享一款大数据下的联机分析(ROLAP)解决方案,它应用了当前主流的数据可视化工具Tableau及列存储数据库Vertica, 采用了IBM Platform Analytics数据采集框架和数据ETL(Extract, transform, load)框架完成对原始数据的采集和处理,提供可用于数据可视化处理的数据仓库,完成对业务数据的可视化分析。

数据可视化工具-Tableau

Tableau主要是面向企业数据提供可视化服务, 企业运用Tableau授权的数据可视化软件对数据进行处理和展示。

Tableau目前有三大软件产品:Tableau Desktop、Tableau Server以及Tableau Public。其中Tableau Desktop是一款PC桌面操作系统上(只支持windows系统)的数据可视化分析软件。Tableau Server则是完全面向企业的商业智能应用平台,基于企业服务器和web网页,用户使用浏览器进行分析和操作,还可以将数据发布到Tableau Server与同事进行协作,实现了可视化的数据交互。而Tableau Public是完全免费的,不过用户只能将自己运用Tableau Public制作的可视化作品发布到网络上即Tableau Public社区,而不能保存在本地,每个Tableau Public用户都可以查看和分享,而且Tableau Public所能支持的接入数据源的类型和大小都有所限制,所以Tableau Public更像是Tableau Desktop的公共网络版,重在体验和分享。

图1 Tableau Desktop 编辑界面

Tableau 与SPSS、Matlab、Excel等软件的区别

Spss、Matlab、Excel是几个大家比 较熟知的数据分析软件,也都能进行数据的可视化。但Tableau Desktop可以说是一款完全的数据可视化软件,而Spss、Matlab、Excel则各有侧重。Tableau Desktop与之的区别是,Spss作为三大统计分析软件,比较偏重于统计分析,使用者需要一定的数理统计基础,虽然其也是功能强大且操作简单友好,但 其输出的图表在与办公软件的兼容性及交互方面有所欠缺,而Tableau Desktop专注的是结构化数据的快速可视化,使用者可以快速构建美观有效的数据可视化作品,并构建交互界面(通过发布到Server),但只是辅助分 析,辅助人们进行视觉化的思考,并没有像Spss那样强大的统计分析功能。Matlab的功能更加强大,但需要较为深厚的编程基础,比较适合科学方面的可 视化项目。Excel是最流行最常用的数据分析、数据绘图软件,但因其大量糟糕的图表设计案例从而在可视化领域广受诟病,而Tableau Desktop不仅图表美观,而且更加智能,可以自动地进行可视化形式的选择,而且Excel作为一款电子表格工具,其不适用大型数据集。

总之,快速、易用、可视化还是Tabeleau Desktop最大的特点,其能满足大多数企业、政府机构数据分析和展示的需要以及部分大学、研究机构可视化项目的要求,而且特别适合于企业,毕竟Tableau自己的定位也是业务分析和商业智能。

列存储式的数据库-Vertica

Veritica作为列存储数据库,提供了比传统行式存储数据库更快的查询操作。Vertica不仅仅按列式存储数据,还主动地根据列数据的特点和查询的要求选用最佳的算法对数据进行培续和压缩,这就大大降低磁盘I/O消耗。

图2 Vertica的列式存储机制

在Vertica中,每列数据式独立地存储在连续的硬盘存储块中。这与传统行式数据库按行的顺序来连续存储数据有根本的不同。 Veritica支持延迟物化技术。对于大多数的分析查询而言,往往只需要获取所有列数据的一个子集。Veritca列式优化器和执行引擎可以在列式存储中跳过无关的列,从而节省了大量的I/O资源消耗。

从实际情况上来看,基于行存储的数据库更适合OLTP(联机事务处理系统),而基于列存储的数据库更适合OLAP(联机分析处理系统),比如数据仓库。除此之外,由于同一列必定是同一类型大小,基于列存储的数据库更容易使用高效的存储方式,与之相比较,基于行存储的数据库则只能采用随机方式处理列值了。

数据采集与ETL集成架构

数据采集与数据加工(ETL)应用了IBM Platform Analytics(以下简称PA)开放式框架,它集成vertica和tableau,实现了从数据采集,数据分析到最终可视化的完整解决方案,其架构如图3所示:

图3 PA的集成架构图

Platform Analytics通过Analytics Data Collectors 进行原始数据的采集,并将采集到的数据写入数据库,存放在原始数据表中,Analytics Data Collectors被部署在一台主机上,一个Analytics Data Collectors包括不同的数据采集器,我们称之为dataloader。不同的dataloader负责采集不同类型的数据,这些loader 可以分为events loader,polling loader和database loader。events loader通过对log文件的解析,polling loader通过与系统API的交互定期采集实时数据,database loader则采集数据库中已经存储的数据。这些数据通过通过plc(platform loader controller)对dataloader进行管理,plc作为loader的主进程负责各个loader的定期调度。与此同时,还有一个wsm进程负责HA控制,检测plc的运行状况,在发现plc停止工作的情况下,wsm会自动重启plc,保证数据的及时采集。

除了单节点的PA node,PA node还采用了failover机制,一个loader可以被部署在多台主机上,一旦某台机子宕机,plc会以此被运行在下一个指定的host上。

原始数据写入到数据库后,Platform Analytics Server会调度ETL对数据进行Extract、Transform和Load,生成最终可用来数据分析的分析数据,这些分析数据存放在以RPT 开头的表中,不同的ETL根据自己特有的业务逻辑对原始数据有价值的信息进行提取和聚合。

在Platform Analytics Server上,每个ETL被定义为不同的task,在PA Console上,可以对这些task 的运行周期进行配置,定期调度这些task完成原始数据的Roll Up、Drill Down、Slice、Dice、Filter等操作。与此同时,Platform Server端还提供其他的功能,比如,数据的清洗,数据延迟的检测,用户数据的合并以及对数据库表中重复的数据进行删除操作。

最终的数据通过可视化工具Tableau Server展现,终端用户可以通过浏览器访问Workbook,对Workbook进行条件查询和数据筛选来查看符合条件的业务数据,可以通过定义Email Notification定时收到系统事件的反馈。

Platform 通过以上的过程,完成数据的采集,加工及可视化展现,最终用户可以通过Web 浏览器方便浏览Workbook,也可以通过与LSF的其他第三方产品(比如PAC)集成,方便用户定制和浏览Workbook。

图4 Workbook 用例展示

结束语

PA目前利用自身提供的数据采集和ETL处理,以及与Tableau和Vertica的集成能够快速相应业务变化的需求,并满足当前的系统性能需求。下一步需要考虑的方向是:在日益增长的数据需求下,如何与其他开源框架的集成,进一步提高数据分析的效率,比如利用ELK来替代现有组件分析系统日志以及采用Spark框架并行处理ETL, 来降低数据周转时间,提高系统的运行效率, 这些都是PA下一步的研究方向。

本文转自d1net(转载)

时间: 2025-01-24 22:30:58

应用Tableau、Vertica的可视化大数据分析框架的相关文章

Tableau预测:自助式大数据分析时代正在来临

对于大数据而言,2016年是具有里程碑意义的一年,更多企业和机构在该年度存储和处理各种形态和规模的数据,并从中提取有价值的信息. 站在辞旧迎新的2017年伊始,Tableau预测随着数据管控和保护系统以及大数据分析系统的日趋成熟,人们将要迎来自助式大数据分析时代. Hadoop的发展为自助式分析奠定技术基础:速度更快.门槛更低,安全标准更高 作为一款大数据开发和运行处理的软件平台,Hadoop最初来源于谷歌的MapReduce编程模型包.该模型包可以把一个应用程序分解为许多并行计算指令,并实现跨

思科发布安全大数据分析架构 OpenSOC

思科在 BroCON 大会上亮相了其安全大数据分析架构 OpenSOC,引起了广泛关注.OpenSOC 是一个针对网络包和流的大数据分析框架,它是大数据分析与安全分析技术的结合, 能够实时的检测网络异常情况并且可以扩展很多节点,它的存储使用开源项目 Hadoop,实时索引使用开源项目 ElasticSearch,在线流分析使用著名的开源项目 Storm. 文章转载自 开源中国社区 [http://www.oschina.net]

惠普推出新版HP Vertica大数据分析平台

[天极网服务器频道6月30日消息]近日,惠普宣布推出新版的HP http://www.aliyun.com/zixun/aggregation/14174.html">Vertica大数据分析平台HP Vertica Dragline,HP Vertica Dragline让企业能以十分经济的方式存储数据,并使用SQL工具快速高效地搜索数据. HP Vertica分析平台是HP HAVEn大数据分析平台的关键组件,让惠普的客户及合作伙伴能够开发下一代应用程序和解决方案,从而更快地从大数据中

《数据科学与大数据分析——数据的发现 分析 可视化与表示》一导读

前 言 数据科学与大数据分析--数据的发现 分析 可视化与表示 大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势.对于企业用户而言,大数据可以帮助提高生产效率.提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率.对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力.在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径. 本书将介绍大数据分析中

HP Vertica企业大数据分析平台爆出远程提权漏洞 4.1及以后版本受影响 绿盟科技发布安全威胁通告

Fortinet向HP提报了一个 hpe vertica大数据分析平台中的远程提权漏洞CVE-2017-5802,攻击者可以远程利用此漏洞获得特权访问.HP已经给出各版本的升级补丁.绿盟科技发布< HPE Vertica Analytics Platform远程特权访问漏洞安全威胁通告 >,通告全文见下方后半部分. Vertica是一款基于列存储的MPP (massively parallel processing)架构的数据库.它可以支持存放多至PB(Petabyte)级别的结构化数据.Ve

大数据分析流程框架的研究

大数据分析流程框架的研究 金宗泽 冯亚丽 文必龙 杨正男 张希 随着信息技术的不断创新,信息量的不断扩大,大数据已经成为了与日常生活息息相关的话题.挖掘大数据的价值已经炙手可热,如何能够更高效.更快速地分析大数据已经成为大数据发展的重要挑战之一.近年来,学术界与工业界就大数据的分析进行了研究,取得了一些研究成果,但针对大数据分析的研究还是非常有限.文中首先从传统数据仓库与大数据时代数据仓库作了对比,引入了大数据的分析流程框架,对分析流程框架的各个部分做了一一阐述,并通过实验验证分析了流程框架的可

大数据分析技术生态圈一览

大数据领域让人晕头转向.为了帮助你,我们决定制作这份厂商图标和目录.它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域.我们希望这份资料新颖.实用. 这是一款面向Hadoop的自助服务式.无数据库模式的大数据分析应用软件. Platfora 这是一款大数据发现和分析平台. Qlikview 这是一款引导分析平台. Sisense 这是一款商业智能软件,专门处理复杂数据的商业智能解决方案. Sqream 这是一款快速.可扩展的大数据分析SQL数据库. Splunk 这是一款运维智

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都与大数据

工欲善其事必先利其器(大数据分析工具集)

大数据时代需要大数据挖掘,我习惯把大数据分成四个领域:数据科学.网络科学.空间地理科学和可视化技术; 最近的主要兴趣在空间地理领域,学习如何获取POI,Polygon,经纬度,空间匹配算法和可视化,一个全新领域有带来诸多大数据分析工具的思考和整合. 恰巧看到一篇国外博客列举了大数据领域的分析工具,俺的微信公号也曾经写过两篇: 数据工匠 | 工欲善其事必先利其器(数据分析工具集一) 数据工匠 | 工欲善其事必先利其器(数据分析工具集二) 今天就接着把数据分析主要是大数据挖掘的工具集三写下来: 顺势