如何在云上实现大数据项目

云计算和大数据目前都是热门话题,如何把两者结合起来即在云上实现大数据项目,这是一个新的实践领域。资深数据专家David Gillman根据自己的经验,列举了云上大数据方案需要考虑的基本要素,包括对数据构建实时索引、自由模式搜索与分析、监视数据并提供实时警告等,帮助用户更好地评估和选择解决方案。

在谈到如何实现云上大数据项目时,David强调了三个实时要素,即实时索引、实时数据和实时监控。具体来说,实时索引指的是“对所有机器数据创建通用的实时索引”:

这是大多数人所认为的大数据的核心;它常常相当于开源项目 Hadoop。公司可能已被来自射频 ID (RFID) 移动、网站点击和其他可能结构化的数据的要求所淹没。如果您知道将如何使用这些数据,如何在未来查询和访问它,那么在处理这些数据方面进行投资是值得的。

您无需知道数据的未来潜在用途,Hadoop 提供了解决办法。通过按原样获取传入的数据,大数据将数据定义步骤推迟到了执行分析时。在不会限制数据的未来使用的情况下,Hadoop 将数据分布在许多服务器上并持续跟踪数据位置。

实时数据指的是“对实时数据和历史数据的自由搜索与分析”,存储数据只是实现目标的道路的一部分。另一方面是信息需要相对容易地被找到。为此,最快的方法是提供一种快速(在实现方面,而不是响应时间方面)搜索功能。因此需要找到支持对非结构化数据进行文本搜索的工具。从监视程序上直接获得响应,这会让人们模糊地认为所有信息都被正确存储且可以访问。此过程的管理步骤是为存储在分布式节点中的数据内容建立索引。搜索查询,然后并行访问分布式节点上的索引,以便提供更快的响应。

实时监控指的是“监视数据并提供实时警告”:

寻找一个工具来监视大数据中的数据。一些工具能够创建被持续处理的查询,寻找要满足的条件。我无法列出实时监视进入 Hadoop 中的数据的所有可能用法。假设大部分传入数据都是非结构化数据,而且不适用于关系数据库,那么实时监视可能是最仔细地检查数据元素的一种方式。

除了三个“实时"之外,Daivid还列举了其他七个要点,可以归纳为:

自动从数据中发现有效的信息

执行手动搜索和手动报告也会影响分析效率。 数据挖掘和预测分析工具正在快速向以下方向发展:能够将大数据用作分析数据来源的数据库,或者用作持续监视变更的数据库。所有数据挖掘工具都遵循此目标。某个人确定分析的用途,查看数据,然后开发能提供洞察或预测的统计模型。然后,需要将这些统计模型部署在大数据环境中,以执行持续评估。这部分操作应该是自动化的。

提供强大的特定报告和分析

类似于知识发现和自动化的数据挖掘,分析师需要获得访问能力来检索和汇总大数据云环境中的信息。拥有大数据报告工具的供应商似乎每天都在增多。基于云的大数据提供商应同时支持来自外部请求者的 Pig 和 HQL 语句。这样,大数据存储即可由人们使用自己选择的工具(甚至使用还未创建的工具)来查询。

提供快速构建自定义仪表板和视图的能力

像传统的商业智能项目的演化一样,当人们可以查询大数据并生成报告时,他们希望自动化该功能并创建一个仪表板,以便通过漂亮的图片反复查看。除非人们编写自己的 Hive 语句和仅使用 Hive shell,大部分工具都有使用查询语句创建类似仪表板的视图的能力。要在大数据部署中列举许多仪表板示例,目前还为时过早。一种基于商业智能历史的预测是,仪表板将成为已汇总的大数据的一个重要的内部传递工具。而且从商业智能的历史发展来看,拥有良好的大数据仪表板对于获取和保持高层领导支持至关重要。

使用普通硬件进行高效扩展,以支撑任何数据量

当使用云大数据服务时,此考虑因素更没有多少实际意义。采购、配备和部署用于存储数据的硬件是服务提供商的职责。硬件的选择应该不难。但是,值得欣慰的是,账单表明大数据适合使用普通硬件。在架构中的一些节点上,“高质量的” 服务器很有用。但是,大数据架构中绝大部分节点(存储数据的节点)都可放在 “更低质量的” 硬件上。

提供细粒度、基于角色的安全和访问控制

当非结构化数据位于关系数据中时,访问数据的复杂性可能会阻碍人们获取数据。常见的报告工具不起作用。考虑采用大数据是简化复杂访问的一个有效步骤。不幸的是,同样的安全设置通常无法从现有关系系统迁移到大数据系统上。使用的大数据越多,良好的安全性就会变得越重要。最初,安全保护可能很少,因为没有人知道如何处理大数据。随着公司开发出了更多使用大数据的分析,需要对结果(尤其是报告和仪表板)进行保护,这类似于保护来自当前关系系统的报告。 开始使用基于云的大数据,了解需要在何时应用安全性。

支持多租户和灵活的部署

云的使用带来了多租户的概念,但这显然不是内部大数据环境中的考虑因素。许多人对将关键数据放在云环境中感到不安。而重要的是,云提供了开始实现大数据项目所需的低成本和快速部署。正是由于云提供商将数据放在了具有共享的硬件资源的架构中,成本才会显著降低。上帝是公平的,将数据放在您的服务器上,由其他某个人来管理整个设置也未尝不可。但是,在大数据需求是间歇性的时候,这不是一个经济高效的业务模型。结果会产生更高的开支,因为公司将为大量空闲时间付费,尤其在实现第一个项目期间,在分析师探索、考虑和了解大数据的时候。

集成API并通过它们进行扩展

大数据是为供自定义应用程序访问而设计的。常见的访问方法使用 RESTful应用编程接口 (API)。这些 API 可用于大数据环境中的每个应用程序,用于管理性控制、存储数据和报告数据。因为大数据的所有基础组件都是开源的,所以这些 API 经过了全面地说明并且可以广泛使用。希望基于云的大数据提供商允许访问目前和未来的所有具有适当安全保护的 API。

(责任编辑:fumingli)

时间: 2024-09-14 09:17:24

如何在云上实现大数据项目的相关文章

北京八个大数据项目 七个已完成注册

截至目前,高新区在贵州·北京http://www.aliyun.com/zixun/aggregation/13565.html">大数据产业发展推介会期间自主签约的8个项目,已有7个完成工商注册,余下一个项目的注册工作正顺利推进. 据了解,为提升项目质量,在贵州·北京大数据产业发展推介会召开之前,高新区就组织招商专班,与企业加强对接.在省.市牵线搭桥下,高新区党工委和管委会负责人多次率队,赴京与企业商谈投资事宜.同时,该区还梳理出大数据类投资项目50余个,然后从投资方积极性.项目质量和带

纯干货!如何做一个成功的大数据项目

1.失败大数据项目的特征 根据在美国做了15年的大数据项目.产品研发和管理,以及其它一些相关的数据分析的工作经验,了解到的其它的做的比较成功的和失败的项目,跟大家做一个经验分享.基本上大数据项目失败的特征主要是五个: 一是大数据项目与企业战略脱节,完全是领导或者是不知道那个部门的决策人突然脑子一热,就说别人在用,我们也做一个,根本没有把该做的项目和企业的商业战略.科技战略等各个方面结合起来.在项目无法与战略协调,无法在战略的指导下做一款产品或者是服务项目的时候,失败的可能性会非常大. 二是大数据

掰一掰GitHub上优秀的大数据项目

VMware CEO Pat Gelsinger曾说:   数据科学是未来,大数据分析则是打开未来之门的钥匙 企业正在迅速用新技术武装自己以便从大数据项目中获益.各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展. 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高. 下面我们尽量列出了一些流行的开源大数据项目.根据它们各自的授权协议,你或许可以在个人或者商业项目中使用这些项目的源代码.写作本文的目的也就是为大家介绍一些解决大

兰州市大数据局 加快“云上兰州、数据城市”建设

记者从兰州市大数据局获悉,自"治转提"专项行动开展以来,市大数据局党组认真研究.精心安排.全力推进,开展专项行动与贯彻市第十三次党代会精神相结合,与落实政府工作报告相结合,与做好大数据各项工作相结合,以作风大转变.效能大提升加快"云上兰州.数据城市"建设,为全市经济社会跨越发展提供有力支撑. 该局将作风建设的成效体现在加快大数据发展的实际工作中,加强政务信息资源跨部门.跨层级互通和协同共享,发挥信息共享支撑多部门协同服务的作用,在完成37家单位数据资源整合入库和21

云平台上的大数据移动医疗专家

睿峰移动医疗平台是基于云端的健康管理系统,基于大数据采集和智能分析,引入家庭医生概念,为用户提供健康咨询.健康管理.疾病预防和为医生诊断提供专业数据分析等服务.并通过与国内多家三甲医院及保险公司合作,形成从健康检查.风险干预到健康管理为一体的大数据健康体系,从而达到促进和改善健康的目的.此外,睿峰移动医疗平台采集的大量健康数据信息,也将成为医疗研究.疾病预防.预测等工作的基础数据来源. 跨界传输国际领先的移动健康管理理念 在跨界为王的移动互联网时代,睿峰基于在医疗和移动互联领域的信息和技术积累,

睿峰----云平台上的大数据移动医疗专家

8月初,继特斯拉.中国人寿.中国工商银行等跨界合作后,睿峰科技重磅推出基于云端的大数据移动医疗平台,将大数据及跨界合作的"触角"延伸至医疗领域.引领国内移动互联行业发展趋势的跨界合作之王--睿峰科技的此举,在业内引起了不小的反响.就该平台的相关情况,记者专程采访了睿峰相关负责人. 睿峰移动医疗平台是基于云端的健康管理系统,基于大数据采集和智能分析,引入家庭医生概念,为用户提供健康咨询.健康管理.疾病预防和为医生诊断提供专业数据分析等服务.并通过与国内多家三甲医院及保险公司合作,形成从健

D-News | 中国移动打造华北最大数据中心,OPEC与阿联酋将推出“油气大数据项目”

政府动态中移动15亿元打造(保定)数据中心 助力雄安新区快速崛起 作为通信行业的主导运营商,中国移动不断完善通信信息基础设施建设,在移动互联网.云计算.大数据.物联网领域积极布局,培育创新发展能力.其中,落户河北保定的数据中心,是中国移动在京津冀一体化大背景下全国IDC战略布局的重要组成部分,也是目前华北地区规模最大的数据中心. "这下雄安新区房价又该涨了!" 平遥.锦州与华为合作共建大数据中心 本周,华为企业云先后宣布了与晋中平遥县及锦州市政府合作的消息.华为公司与晋中平遥县就&qu

为IoT和大数据项目分配IT资源

大数据和物联网项目给IT基础架构带来了前所未有的压力. Internet of Things(IoT) 和大数据应用已经给网络和存储架构带来了压力,更不用说这还需要IT专家使用不同的技能和工具来管理这些新的部署了. 虽然执行起来很有挑战性,但是也有一些为IT团队而设的指导方针来帮助他们托管IoT和大数据.这得从审查基础架构中大规模.数据密集型的项目需求开始. 更多的处理能力 一旦项目进入到具体的实施阶段,IT组织连同它的硬件.软件和服务供应商很可能需要去定义合适的系统架构和操作系统,每个系统处理

承德大数据项目集中开工揭牌仪式昨日举行

9月23日,承德市大数据项目集中开工揭牌仪式在高新区隆重举行.仪式上,中力海置业有限公司力海企业港项目.承德斐讯云信息技术有限公司大数据IDC 建设项目.河北易骋云数据科技有限公司金融大数据产业项目.中经承园科技有限公司承德新一代绿色数据中心项目.承德微型智慧创业创新科技园项目正式开工,承德市大数据科创中心.姚建铨院士工作站.河北民族师范学院曙光大数据学院.承德市大数据应用创新中心.博彦科技承德有限公司.华奥电竞承德信息科技有限公司.承德大数据研发展示中心等7 家公司正式揭牌. 南开大学校长龚克