如何选择基于云的大数据方案

云计算和大数据目前都是热门话题,如何把两者结合起来即在云上实现大数据项目,这是一个新的实践领域。资深数据专家David Gillman根据自己的经验,列举了云上大数据方案需要考虑的基本要素,包括对数据构建实时索引、自由模式搜索与分析、监视数据并提供实时警告等,帮助用户更好地评估和选择解决方案。

在谈到如何实现云上大数据项目时,David强调了三个实时要素,即实时索引、实时数据和实时监控。具体来说,实时索引指的是“对所有机器数据创建通用的实时索引”:

这是大多数人所认为的大数据的核心;它常常相当于开源项目 Hadoop。公司可能已被来自射频 ID (RFID) 移动、网站点击和其他可能结构化的数据的要求所淹没。如果您知道将如何使用这些数据,如何在未来查询和访问它,那么在处理这些数据方面进行投资是值得的。

您无需知道数据的未来潜在用途,Hadoop 提供了解决办法。通过按原样获取传入的数据,大数据将数据定义步骤推迟到了执行分析时。在不会限制数据的未来使用的情况下,Hadoop 将数据分布在许多服务器上并持续跟踪数据位置。

实时数据指的是“对实时数据和历史数据的自由搜索与分析”,存储数据只是实现目标的道路的一部分。另一方面是信息需要相对容易地被找到。为此,最快的方法是提供一种快速(在实现方面,而不是响应时间方面)搜索功能。因此需要找到支持对非结构化数据进行文本搜索的工具。从监视程序上直接获得响应,这会让人们模糊地认为所有信息都被正确存储且可以访问。此过程的管理步骤是为存储在分布式节点中的数据内容建立索引。搜索查询,然后并行访问分布式节点上的索引,以便提供更快的响应。

实时监控指的是“监视数据并提供实时警告”:

寻找一个工具来监视大数据中的数据。一些工具能够创建被持续处理的查询,寻找要满足的条件。我无法列出实时监视进入 Hadoop 中的数据的所有可能用法。假设大部分传入数据都是非结构化数据,而且不适用于关系数据库,那么实时监视可能是最仔细地检查数据元素的一种方式。

除了三个“实时"之外,Daivid还列举了其他七个要点,可以归纳为:

自动从数据中发现有效的信息

执行手动搜索和手动报告也会影响分析效率。 数据挖掘和预测分析工具正在快速向以下方向发展:能够将大数据用作分析数据来源的数据库,或者用作持续监视变更的数据库。所有数据挖掘工具都遵循此目标。某个人确定分析的用途,查看数据,然后开发能提供洞察或预测的统计模型。然后,需要将这些统计模型部署在大数据环境中,以执行持续评估。这部分操作应该是自动化的。

提供强大的特定报告和分析

类似于知识发现和自动化的数据挖掘,分析师需要获得访问能力来检索和汇总大数据云环境中的信息。拥有大数据报告工具的供应商似乎每天都在增多。基于云的大数据提供商应同时支持来自外部请求者的 Pig 和 HQL 语句。这样,大数据存储即可由人们使用自己选择的工具(甚至使用还未创建的工具)来查询。

提供快速构建自定义仪表板和视图的能力

像传统的商业智能项目的演化一样,当人们可以查询大数据并生成报告时,他们希望自动化该功能并创建一个仪表板,以便通过漂亮的图片反复查看。除非人们编写自己的 Hive 语句和仅使用 Hive shell,大部分工具都有使用查询语句创建类似仪表板的视图的能力。要在大数据部署中列举许多仪表板示例,目前还为时过早。一种基于商业智能历史的预测是,仪表板将成为已汇总的大数据的一个重要的内部传递工具。而且从商业智能的历史发展来看,拥有良好的大数据仪表板对于获取和保持高层领导支持至关重要。

使用普通硬件进行高效扩展,以支撑任何数据量

当使用云大数据服务时,此考虑因素更没有多少实际意义。采购、配备和部署用于存储数据的硬件是服务提供商的职责。硬件的选择应该不难。但是,值得欣慰的是,账单表明大数据适合使用普通硬件。在架构中的一些节点上,“高质量的” 服务器很有用。但是,大数据架构中绝大部分节点(存储数据的节点)都可放在 “更低质量的” 硬件上。

提供细粒度、基于角色的安全和访问控制

当非结构化数据位于关系数据中时,访问数据的复杂性可能会阻碍人们获取数据。常见的报告工具不起作用。考虑采用大数据是简化复杂访问的一个有效步骤。不幸的是,同样的安全设置通常无法从现有关系系统迁移到大数据系统上。使用的大数据越多,良好的安全性就会变得越重要。最初,安全保护可能很少,因为没有人知道如何处理大数据。随着公司开发出了更多使用大数据的分析,需要对结果(尤其是报告和仪表板)进行保护,这类似于保护来自当前关系系统的报告。 开始使用基于云的大数据,了解需要在何时应用安全性。

支持多租户和灵活的部署

云的使用带来了多租户的概念,但这显然不是内部大数据环境中的考虑因素。许多人对将关键数据放在云环境中感到不安。而重要的是,云提供了开始实现大数据项目所需的低成本和快速部署。正是由于云提供商将数据放在了具有共享的硬件资源的架构中,成本才会显著降低。上帝是公平的,将数据放在您的服务器上,由其他某个人来管理整个设置也未尝不可。但是,在大数据需求是间歇性的时候,这不是一个经济高效的业务模型。结果会产生更高的开支,因为公司将为大量空闲时间付费,尤其在实现第一个项目期间,在分析师探索、考虑和了解大数据的时候。

集成API并通过它们进行扩展

大数据是为供自定义应用程序访问而设计的。常见的访问方法使用 RESTful应用编程接口 (API)。这些 API 可用于大数据环境中的每个应用程序,用于管理性控制、存储数据和报告数据。因为大数据的所有基础组件都是开源的,所以这些 API 经过了全面地说明并且可以广泛使用。希望基于云的大数据提供商允许访问目前和未来的所有具有适当安全保护的 API。

崔康 热情的技术探索者,资深软件工程师,InfoQ编辑,从事企业级Web应用的相关工作,关注性能优化、Web技术、浏览器等领域。

(责任编辑:蒙遗善)

时间: 2024-07-28 18:31:38

如何选择基于云的大数据方案的相关文章

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网.云计算.物联网.社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长.收集大量数据,并在数据中发现趋势,能使企业能够更快.更平稳.更有效地发展.然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?"天德π客"众创空间特举办本期论坛--"基于阿里云的大数据实践--海量日志分析",邀请华北电力大学电力系统及其自动化博士,阿里云大数据高

阿里云发布新一代CDN 6.0 主打云与大数据融合

3月18日,阿里云发布极速CDN 6.0版,在业界首次提出Cloud Delivery Network(云分发网络)理念.新版CDN融合云计算和大数据技术,涵盖视频和移动两个解决方案以及大数据分析.HTTPS加速等新功能,为客户提供一站式的云CDN解决方案.   与此同时,阿里云也透露2015年云CDN客户数已突破10万,客户规模是传统CDN厂商客户之和的20倍:营收同比增长800%,增速比传统服务商增速快约20倍.   这是继去年率先让利引发行业震动之后,阿里云再次以新的技术和产品引导行业变革

云创大数据9款产品成功入围中央国家机关集中采购

近日,中央国家机关政府采购中心公布了"中央国家机关2017-2018信息类产品协议供货采购项目中标公告",作为我国政府采购领域级别最高.覆盖面最广的采购项目之一,其同时也是地方政府采购的风向标.在采购名录中,云创大数据旗下9款产品凭借优异的性能与安全可靠的特点成功入选. 此次云创大数据的中标产品涵盖网络存储设备.服务器.网络安全产品等:网络存储设备的丰富机型可供灵活选择,同时具有高性能.高可靠性以及节能环保等多重魅力:服务器则针对超大规模数据中心应用.高性能计算以及虚拟化应用特别设计,

基于HBase的大数据存储的应用场景分析

引言 HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群.因此HBase被广泛使用在大数据存储的解决方案中. 为何使用HBase HBase的优点: 列可以动态增加,并且列为空就不存储数据,节省存储空间. Hbase自动切分数据,使得数据存储自动具有水平scalability. Hbase可以提供高并发读写操作的支持. HBase的缺点: 不能支持条件查询,

【阿里云资讯】太极股份携手阿里云,共谋政务云与大数据事业

[8月25日讯]              8月25日,太极股份与阿里云在阿里巴巴集团总部阿里西溪园区签订战略合作协议.              双方协定建立长期稳定的战略合作关系,围绕国家政务.智慧政法.智慧城市和中央企业等行业市场,共同推进面向政府.法院以及交通.能源等重要行业的云计算和大数据业务发展. 历史一刻 太极股份总裁刘淮松认为:太极和阿里云各自特点都很明显,太极在政府及相关行业解决方案服务方面处于领先地位,阿里云在互联网应用和云计算领域位居领先地位,围绕"互联网+行业"

云创大数据亮相第四届中国-亚欧安博会

2017年8月17日,以"智慧安防.科技强警"为主题的第四届中国-亚欧安防博览会(简称亚欧安博会)在乌鲁木齐开幕,吸引了来自美国.印度.哈萨克斯坦.俄罗斯.日本等30多个国家和地区以及国内20多个省份的650余家中外知名企业参展,展出范围包括视频监控.防盗报警.公共广播.警用装备.军警无人机.民用无人机.消防设备以及应急救援等10余个展区,预计将吸引上万人次客流量. 亚欧安博会的前身为新疆警用技术装备与社会公共安全产品博览会,已连续成功举办了12届,目前已成为仅次于北京.深圳以外的第三

云与大数据——两大IT创新趋势的融合

由于市场的认知和应用逐渐增加,客户的信任度和清晰度也在不断增加,公司能够更好地评估大数据带给他们的组织的效益和挑战. 并不意外地看到,Gartner公司最近的全球预测中,大数据高居IT支出优先选择榜首.这些数字与思科最近的CloudWatch调查是对应的,结果发现,大数据将IT战略的一个重要方面,在未来12个月内重要性会有所增加. 大的数据优先级 两个优先项先于其他而出现--实时http://www.aliyun.com/zixun/aggregation/11872.html">访问数据

阿里云一站式大数据平台"数加"产品发布

文章讲的是阿里云一站式大数据平台"数加"产品发布,阿里云在2016云栖大会上海峰会上宣布开放阿里巴巴十年的大数据能力,发布一站式大数据平台"数加",首批亮相20款产品.据介绍,在输出自身大数据能力的同时,"数加"还向有数据开发能力的团队开放.这些团队可入驻"数加",借助数加上的工具为各行各业提供数据服务. 此次,"数加"平台首批集中发布了20款产品,覆盖数据采集.计算引擎.数据加工.数据分析.机器学习.数据

2017安全之势:云、大数据、IoT、人工智能

"新技术让信息系统变成了孙悟空,开始无所不能,但安全仍是它的'紧箍咒'!怎样解开这个'紧箍咒'?各路安全厂商各显其能,但似乎路漫漫兮离目标还很遥远."三未信安董事长张岳公在ZD至顶网<百位意见领袖寄语2017>中说出了这样一句话,我觉着很有道理.安全是一个永恒的话题,如果说它与新的信息技术相生相克也不过分.即便如此,我们更要尽可能的减少安全带来的束缚.2017已经到来,不妨来看看至顶网与业界大咖总结的安全之势. "大.智.移.云.物"等为代表的新兴技术正