大数据分析工具采购指南

大数据分析工具使用户能够分析各种各样的信息——包括结构化事务数据和社交媒体帖子、Web服务器日志文件及其他形式的非结构化和半结构化数据。一旦组织决定要购买一个大数据分析工具,下一步就是制定一个流程,评估可用的产品,然后从中找到一个最适合你需求和要求的产品。

下面我们将介绍在评估各种大数据分析工具符合企业需求的程度时可能用到的必备特性和特定属性。然后,你再编写一个预案请求(RFP),说明使用这些工具将如何解决组织的需求。

评估标准

建模技术的广度与深度。供应商已经应用了不同级别的建模,并且相应地开发了不同复杂度的分析功能。单个工具支持的分析建模广度反应了所提供的不同方法。其中一些例子包括回归技术、根据过去趋势预测变化值的时间序列模型、分类与回归树(也称为CART)和神经网络。

建模技术的深度反映了所使用方法的两个方面特征:支持更精准开发模型的算法成熟度和建模技术的灵活性。换而言之,数据挖掘和预测分析时需要使用哪一种级别的专业知识才能理解目前能够开发哪一些类别的模型及如何使用一个特定工具完成建模?

经验一般的数据分析师感兴趣的是提供大量分析功能的供应商产品,而更专业的分析师和统计师则更偏好于那些能够更深入分析特定分析模型的工具。

集成与可访问性。大数据分析应用通常依赖于越来越多的内部和外部数据源,其中包括结构化和非结构化数据。这促成了支持数据可访问性和系统集成的功能需求。这个方面要考虑的特性有:

非结构化数据使用率。确认产品能够使用不同类型的非结构化数据(文档、电子邮件、图像、视频、演示文稿、社交媒体渠道信息等),并且能够解析和利用收到的信息。

大数据可访问性。对比供应商工具连接大数据架构的方式,其中包括存储在Hadoop的分布式数据,以及各种横向扩展存储中存储的文件(例如,MongoDB或Apache Cassandra等NoSQL数据)。

与现有平台组件的互操作性。如果要在一些传统数据管理和BI技术中混搭分析方法,那么这一点非常重要。例如,许多分析工具支持通过传统的SQL查询去调用分析模型。这种形式的互操作性允许使用预测模型的结构去产生一些传统数据分析师通常都能使用的查询与报表。

连接性。一定要评估连接性,或者说产品访问其他系统的能力,以及作为数据源给现有平台提供用于生成报表和分析的能力。

易用性。有一些大数据分析产品是供应商从零开始开发的,而有一些则基于开源的R统计语言。无论是哪一种情况,这种评估类别主要关注于产品用于分析数据、开发模型和确定模型有效性与准确性的易用性。

业务分析师可用性。没有统计背景的商业分析师是否也能够轻松地开发分析和应用呢?确定产品是否提供了方便开发和分析的可视化方法。

部署不同业务用例的灵活性。相同的算法方法可以应用到许多不同行业的不同业务场景中。如果你的组织准备做的这类分析数量有限,并且集中在更为普通的用例上(如客户生命周期价值分析、欺骗行为分析或存留预防),那么你可能应该在技术选择牺牲一些灵活性。然而,如果你的组织想要一种广度更大、约束更小的分析方法,则应该寻找一些灵活性更高的建模技术。

模型评分。这包括一些额外工具,它们可以帮助分析师自动比较准确性、有效性和不同预测模型用于相似业务场景时的预测价值。

协同性。隔离分析与开发可能导致重复工作和不协调的结果。提供一种集成协同功能和在大数据分析平台中分享分析模型的手段,使分析师可以协同工作,共同优化他们的应用程序及将来重用相同的模型,从而能够降低开发成本和提高一致性。

大数据分析工具的系统管理功能

接下来要考虑将一项新技术整合到组织中的实践环节。管理与配置的简单性评估包括理解所有的系统需求及安装、配置和持续管理的依赖条件。例如,使用R统计模型的大数据分析工具要求在安装产品时同时购买和安装R环境。此外,还需要确定产品可能安装的平台,以及确定能够嵌入已开发模型和应用的平台。

其他考虑因素包括分析流程与将已开发模型加入到业务应用过程中分配角色和访问权限等安全问题。分析产品所提供的身份验证、授权和访问控制等选项。

性能

大多数高端Hadoop平台和专业设备在设计上都支持多个并行处理和分布式计算的计算节点。如果要求较高的运行性能,那么很重要的一点是所评估的产品是否支持大规模并行处理(MPP)系统配置。

使用MPP平台要求使用一组特定的工具才能高效地使用平台的性能优化机制,其中包括:

平等性和数据分发。如果要用并行进程独立处理分布式的数据集,并且要求减小网络带宽和增大数据存储位置,那么最适合使用数据并行系统。要检查产品的并行性是否能很好地吻合数据分发策略。

产品的下推功能。它使分析算法能够利用系统软件堆中其他组件的内在功能。例如,如果有一个数据库管理系统在其工具集内部提供了支持参数定制的建模工具,并且这些工具本身就经过优化和支持DBMS的架构特性。在这种情况下,分析工具最好要使用原生功能,而不要尝试替换这些功能。

可扩展性和可伸缩性。随着数据量的不断增长和数据管理平台的不断扩展,要评估不同的分析产品如何跟随处理与存储容量的增长而增长。

大数据分析工具的费用

在使用大数据技术的大部分案例中,产品的价格必须影响购买决策。有一些大数据分析工具价格昂贵,而有一些则价格较低,甚至是免费的。此外,供应商可能根据不同的定价提供不同的特性、功能或约束(如限制可分析数据容量)。

另一个要注意的问题是特殊服务需求。对于每一个评估的产品,我们都要评估它是否需要软件供应商或外部专家的帮助,才能完成安装和培训,或者提供特殊的开发服务。

此外,一定要考虑所评估的长期总拥有成本(TCO)。TCO计算应该包括年度维护费用和支持该产品的系统软件堆分摊费用,以及运维人员、数据中心空间、制冷及其他设施的分摊费用。

制定自己的RFP

根据组织的具体用例来过滤出最适合的产品,从而缩小候选供应商范围。要检查组织需求与上面的评估类别的关系,制作出一个RFP,其中除了说明关于集成、互操作性和企业明细之外的标准问题,主要关注于量化预期因素的符合程度,如分析建模、数据容量、必要知识水平和数据可访问性要求等。

确定最重要的差异性因素,如产品随着数据容量增长的扩展能力和性能,它使用非结构化数据的能力,以及建模功能的广度和深度。同时,要提出一些反映用户社区的需求,特别是分析师专业知识水平有差别或者需要企业内部协作的时候。此外,选择一种大数据分析工具的关键影响因素包括它的初始价格、人员要求和总运营成本,提出一些与评估过程相关的费用和预算问题。

说明业务需求并对它按优先级划分,然后从一组供应商产品中指定预期产品,这样可以使采购团队能够将业务需求与评估类别相关联。通过检查上面的列表、定义相关问题和规定可接受答复来配置RFP,从而确定各个特定的产品符合需求的程度。

本文作者:佚名

来源:51CTO

时间: 2024-10-23 02:48:20

大数据分析工具采购指南的相关文章

工欲善其事必先利其器(大数据分析工具集)

大数据时代需要大数据挖掘,我习惯把大数据分成四个领域:数据科学.网络科学.空间地理科学和可视化技术; 最近的主要兴趣在空间地理领域,学习如何获取POI,Polygon,经纬度,空间匹配算法和可视化,一个全新领域有带来诸多大数据分析工具的思考和整合. 恰巧看到一篇国外博客列举了大数据领域的分析工具,俺的微信公号也曾经写过两篇: 数据工匠 | 工欲善其事必先利其器(数据分析工具集一) 数据工匠 | 工欲善其事必先利其器(数据分析工具集二) 今天就接着把数据分析主要是大数据挖掘的工具集三写下来: 顺势

新手如何选择大数据分析工具

大数据火了!它带来了一个新的行业.一次新的机遇和一场新的挑战.不少目光长远的人已经着手准备"入水"大数据行业,这个过程中最重要的就是掌握一个或者多个数据分析工具.那么,面对众多的大数据分析产品,新手该如何选择呢? 需求放在第一位 不管是选择大数据分析工具还是其他工具软件,需求永远是我们的第一动机,简单而言就是我选择工具是用来做什么的.对于新手入门来说,是要优化报表,还是要收集.管理数据,亦或者是对接现有的数据库,对大数据进行分析和价值挖掘,这些动机需要首先确立. 确立了使用需求后,我们

给入门者,大数据分析工具的十条学习路径

虽然只有极少数人能够修炼成数据科学家这一21世纪最性感多金专业人士,但对于大多数非数据分析专业的IT人士来说,掌握对路的大数据工具同样意味着加薪和升值.鉴于市面上大数据分析工具琳琅满目日新月异,为了帮助大家少走弯路,我们为不同技术背景的IT专业人士整理了十条大数据分析工具的进修技术路径: 一.Excel起步 作为一个入门级工具,Excel是快速分析数据的理想工具,也能创建供内部使用的数据图.如果在众多数据分析工具中您只了解最基本的Excel,以下是最好的进阶路线: 二.SQL起步 如果你了解SQ

最好用的实时威胁分析+大数据分析工具

文章讲的是最好用的实时威胁分析+大数据分析工具,随着网络技术的发展,扫描和筛选恶意软件的过程越来越复杂,大多数传统的反恶意软件工具只能解决非常表面的问题,使用简单的方法防护网络端点的安全已经过时了. 为了发现并阻止恶意软件的攻击,我们将为您介绍几款先进的端点响应和检测工具,这些工具能够高效的找到恶意软件并进行解决.在此之前,我们曾经介绍了一款尖端工具:科摩多端点保护v5.1,有的读者对这件软件并不满意,今天我们将介绍另外一款端点保护工具,Counter Tack Sentinel v5.5,喜欢

Hiptype:让出版商更懂读者的大数据分析工具

Hiptype:让出版商更懂读者http://www.aliyun.com/zixun/aggregation/14294.html">的大数据分析工具 电子书以其便捷.廉价.跨平台的特性,正越来越受到各方青睐.目前,几乎所有的收费电子书都会提供部分章节让读者试读,然后决定是否购买.这样一来,出版商需要弄清楚人们读到了哪里,读完后有没有购买,以及其他各种体验,才能卖出更多电子书.美国创业公司Hiptype开发了一套电子书阅读分析工具,试图解决这一难题. Hiptype自称"面向电

大数据分析工具要怎样适应企业需求

现在人人都在谈大数据,大数据已经从当初一个模糊的概念逐渐发展为一个成熟的行业.企业希望利用大数据来为自己寻求发展契机,于是部署大数据分析工具就成了当务之急.我们知道,没有最好,只有最合适,那么企业该如何选择适合自己大数据分析工具呢? 一. 根据业务选择 企业的业务不同,对大数据分析工具的要求也不同.如电商.零售业希望能及时地把握市场信息,了解用户画像:而制造业.航空产业则更希望了解行业内部的信息,特别是竞争对手的行为动态. 在大数据分析工具中,这一切都是在数据分析的前提下得出的,这就需要大数据分

NSA 将开源大数据分析工具 Nifi

NSA和开源软件并非水火不容.NSA本周宣布与Apache软件基金会合作,在Apache许可证下开源大数据分析工具Niagarafiles (Nifi).NSA称 Nifi 能在多个计算机网络中自动化数据流,即使数据格式和协议存在差异.目前关于Nifi的细节透露的不多.Nifi首席开发者 Joseph L Witt称,软件提供了一种方法更有效的区分数据流优先级,移除识别和传输关键信息的人为延迟.NSA技术转移项目负责人Linda L Burger说,他们使用开源的方法将技术从实验室转移到市场,使

10款超好用的开源大数据分析工具

考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的大数据收集与分析工具.然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大数据分析类工作.下面我们将整理出一份包含十款工具的清单,从而有效压缩选择范畴. 数据已经成为现代化企业中最为重要的宝贵资源.一切决策.策略或者方法都需要依托于对数据的分析方可实现.随着"大数据分析"逐步替代其上代版本,即"商务智能",企业正面临着一个更加复杂.且商业情报规模更为庞大的新时代. 考虑到现有技术解

甲骨文推出云端大数据分析工具 Oracle Analytics Cloud

甲骨文早前刚召开了年度的全球年度大会 Oracle Openworld,刚卸任 CEO 一职的 Larry Ellison 在致辞中充分显示了甲骨文在进军云端市场的决心,并在大会上推出了多款全新软.硬件和云端企业方案.甲骨文近年积极开拓云端业务,在大会上推出了云端分析产品组合 Oracle Analytics Cloud,能够针对云数据.本地数据.传统数据和大数据来源进行数据分析. 横跨 DaaS.SaaS.PaaS 及 IaaS 等各领域的云端服务 Oracle Cloud 是甲骨文旗下多种公