云和大数据时代的数据管理

说在前面:术语/定义

大数据:也是数据(白马非马问题),大一点的数据,只是更大、更多、更快,更低

Hadoop/Spark:可以理解是一种数据库,只不过是分布式的,可方便的横向扩展为什么要做BingoInsight大数据管理平台?

内部因素:将近10年数据分析领域的耕耘,需要沉淀

品高云从2009年开始接触数据分析领域。刚开始主要是做数据可视化这一块,而后深入到数据分析和运营监控领域。在将近10年的项目实施过程中积累了将近100多个数据分析型项目的经验。如何把项目中的技术和经验总结沉淀下来,是品高云近年来思考的问题。所以从2014年初开始,品高云组建一个团队开始研发BingoInsight大数据平台,也是在这个大数据的浪潮下的尝试。

外部因素:商业、技术、行业环境均已成熟

从外部看,首先是商业环境,在大数据概念炒作起来之后,很多企业开始重视大数据的运用,在商业环境成熟的条件下,大数据的技术环境随着2004年谷歌的几篇大数据论文的发布,开源社区也出了两个主流的技术体系Hadoop和Spark,当前这两个技术体系也是基本上较为成熟的。再就是国内一些做数据的公司,他们也是刚开始做大数据,所以从行业竞争的角度上来说,BingoInsight跟以前传统做数据的公司可以说是处在同一个起跑线的,所以也是一个比较好的机会。

上图为BingoInsight平台的定位企业如果直接使用Hadoop或者Spark去构建大数据平台会是怎样的体验?

首先,Hadoop它只是一个框架,并不是一个产品,如果企业直接用Hadoop构建大数据平台会面临很多问题。

第一点,是技术选型,因为现在的大数据技术体系会涉及很多,除了Hadoop之外还会有很多,例如HBase、Kafka、Yarn等等这些,一般企业不知道怎么去选这些技术,而且这些技术涉及的版本也会有很多。

第二点,企业也会面临服务问题。没有培训,没有支撑,也没有升级和服务。

第三点,如果在分布式架构上面去部署,也会非常复杂,是采用云部署的方案用物理机来部署,或者是我们要部署很多分布式的集群,这多个集群之间怎么去管理等等,都会是一个问题。

其次,除了这些问题之外企业在构建大数据平台的时候,其实还要考虑很多问题。

第一个就是企业内部的各种生产系统的异构数据怎么快速采集到数据平台。

第二个就是数据进来之后怎么样可以很方便的去处理这些数据。

第三个就是处理完数据之后,企业如何使用这些数据去做分析,去消费,也会面临很多问题。

第四个就是整个大数据平台建成之后的运维,以及管理要怎么去做。

综上所述,Hadoop离企业大数据的期望其实还有一段距离,Hadoop只是解决了存储和计算问题。除此之外采集、处理、开放、消费跟运维这些问题Hadoop都没有办法帮企业解决。借助BingoInsight构建大数据平台是怎样一种体验?

  上图为BingoInsight产品架构图

1. BingoInsight只需简单配置即可从多种数据源按多种数据周期快速采集

首先BingoInsight可以只需要简单的一些配置就可以按一定时间周期从关系型数据库、MPP数据库、文本、FTP、网页等采集数据,时间周期可以是实时、日、周、月,非常灵活。

2. BingoInsight开放性设计,拥抱不同的存储计算技术,企业可灵活选择

BingoInsight的设计理念就是一个开放式的设计,并不去限制企业是用hadoop,还是用传统数据库(像Oracle),企业可以灵活的去选择这些存储和计算技术。当然在帮企业构建的过程中我们也会根据实际的数据量或者是应用场景设计整个大数据的技术架构。整个存储计算的平台是采用开放性的设计。

3. BingoInsight模板化常用数据处理场景,帮助用户快速处理数据

数据进来之后,平台怎么来处理呢?我们把企业在做数据处理的场景做了详细的梳理,像经常会遇到报表作业,或者是跑指标,或者是对文本分类,或者是数据挖掘等等,BingoInsight将把这些数据处理常用场景,总结沉淀为一个个数据处理的模板库,用户做数据处理的时候只需选取一个数据处理的模板,然后再通过设置数据处理的一些参数就可以了,相当于用户在做数据处理的时候不需要开发或者是少量的开发就可以处理数据。规则设置好之后BingoInsight会自动调度,调度的时间周期也可以很灵活,可以实时、按周、按日、按月。大数据平台的这些数据怎么进行开放与共享?

像美国、英国、新加坡这些发达国家,整个政府的数据是放在开放平台上的,社会的一些公共用户在政府的开放平台上就可以去检索到所需的相关数据。基于共享和开放这个场景和条件下,BingoInsight如何去满足的呢?首先,由数据提供者在平台上去注册它需要去共享或者需要去开放的数据,形成一个企业或者是政府统一的一个数据目录,在注册的时候也是需要去审批的,服务开发者可以基于数据目录去开发平台的数据服务,当然这个是基于SQL的数据服务的一个开发,平台也会提供数据服务的一个测试工具,帮开发者去做测试,再提交到服务管理员去做审批,审批完之后就可以把这个数据服务发布出来。如果服务使用者需要哪些数据,他只需通过数据服务的申请然后再授权,即可直接去使用这个数据服务。在整个平台数据服务的使用过程中,平台也会对数据服务进行数据监控和统计。这样的话就把整个企业和政府的整个共享和开放流程进行统一的管控和管理。

本文转自d1net(转载)

时间: 2024-09-24 14:26:56

云和大数据时代的数据管理的相关文章

品高公开课 | 云和大数据时代的数据管理

小编的话 "技术干货"系列文章意在分享技术牛人的知识干货,每期主题都不一样哟!期待各位读者在文后发表留言,来一场技术上的交流和思想上的碰撞!本期将由品高大数据平台产品经理李伟文带来"云和大数据时代的数据管理"的分享. 分享嘉宾 李伟文,目前就任品高大数据平台--BingoInsightDIG平台的产品经理,专注于大数据和数据分析领域,拥有多个数据分析领域项目经验,14年开始转向数据平台方向的研究,主要负责产品规划.设计和售前支持. 分享正文 大家好,非常荣幸能和大家

大数据时代激活数据管理新思路

根据分析机构Gartner给出的定义,大数据就是那些具有规模大.速度快.种类多三大特征的信息资产.从海量数据中筛选出有用的信息,然后通过各种手段将信息转化为洞察力,从而做出正确决策,并最终推动业务发展. 通过一系列处理,大数据可以帮助企业制定明智且切实可行的战略,获取前所未有的客户洞察,支持客户购买行为,并构建新的业务模式,进而赢得竞争优势.然而,实践往往会比理论来得更困难.企业要处理好大数据生命周期的每一个环节,就必须采用创新且经济高效的处理方法,并跳出传统的数据管理思维. 什么在掣肘大数据为

IT现状调查:大数据时代 企业面临挑战

[IT168 调查报告]2012-2013中国IT技术趋势大调查活动于2012年10月16日启动,历经1个月的时间.在线调查期间,受到了来自ITPUB.ChinaUnix(以下简称CU)以及其它合作网站的网友的极大关注和积极参与.目前调查已经完满结束,所有的数据都在后台整理和统计之中.本次网上调查共回收调查问卷17,101份问卷,其中合格问卷为14,522份.从整体上看,今年的调查更专注,无论从数量上还是质量上都较去年有比较大的提高. 本次调查的内容涉及:企业信息化.http://www.ali

人工智能时代 云和大数据到底有多重要?

60年前的某个夏天,麦卡锡.明斯基等年轻的科学家们举办了一次聚会,共同研究用机器模拟智能的问题,也是在那时,"人工智能(AI)"的理念正式被提出.如今,人工智能已经应用于语音识别.图像处理器.计算机视觉.机器人等多个领域,甚至击败了围棋九段李世石,这种进步是难以置信的.而这一系列成绩的背后,是海量数据的积累与学习,在没有云的时代,是无法想象的. 人工智能时代 云和大数据到底有多重要?(图片来自The Huffington Post) 人工智能涉及的领域非常广泛,工业.航天.商业都有应用

罗伯特·汉姆:在大数据时代生存

在最热的IT话题中,云和大数据的简化IT趋势和一体化理念,早在1996年美国CommVault(康孚)公司成立之初,就被其CEO 罗伯特·汉姆(N.Robert Hammer)确定为发展方向,并在多年后的今天得到市场和业界认可.现在,CommVault常被华尔街分析师们看作惠普.戴尔等IT巨头在软件业务上的收购目标.不过罗伯特·汉姆否认了收购一说:CommVault目前市值29亿美元,单股股价从最初3美分涨到65美元,汉姆认为已经没有公司"买得起" CommVault了.今年年初,这家

张亚勤:云和大数据有望催生颠覆式创新

微软全球资深副总裁,微软(中国)有限公司董事长张亚勤20日发表博文"云和大数据有望催生颠覆式创新",文章提出,云计算和大数据的结合,将对今后的政治.经济.科技.民生产生难于估量的影响.无论是做硬件.做平台,还是做应用.做服务,归根结底都是以数据为核心.以数据为动力,来提升产品对用户的引力.强化企业竞争力.创造新的商业机遇.全文如下: 2008年9月-2009年7月,我曾利用业余时间,将自己对云计算的现实与未来的思考总结写成了<云计算三部曲>.那时,云计算对许多人来说还是新鲜

分析师:“大数据时代”的生存法则

在Talend Connect大会上,一名IT业内分析专家指出,企业若不抓住大数据带 来的机会,将很有可能在同行中遭到淘汰. Jeff Kelly是Wikibon.org的 首席研究员,也是SiliconANGLE的编辑.他说,诸如Hadoop和MapReduce这样的大 数据技术才刚刚起步:很多人由于技术有限或观念陈旧,仍然将它们拒之门外. 然而,在不久的将来,当软件使用门槛变低大量企业开始采用的时候,这些今天 已经采用了大数据技术的企业将再次占领高地.到那时,他们会具备更丰富的信 息来进行决

IDC:中国金融行业正步入大数据时代初级阶段

3月25日,IDC研究显示,当前,数据是重要资产的理念已经在中国金融行业形成共识,数据的真正价值在于能够洞察企业内部规律,数据的洞察力成为金融企业的核心竞争力.在中国金融行业信息化建设中,与信息加工密切相关的大数据管理正逐渐成为与核心业务系统建设.渠道建设和前置建设同等重要的领域. 经过多年的发展与积累,目前中国的大型商业银行和保险公司的数据量已经达到100TB以上级别,并且非结构化数据量在迅速增长.基于IDC对大数据的定义(通常数据量大于100TB, 数据量年增率大于60%,数据采集是高速数据

【直播回顾】通过MaxCompute Studio实践大数据时代的DevOps

内容简介:阿里云大数据平台 MaxCompute 系统为开发者提供全托管的.PB 级的数据仓库解决方案,MaxCompute Studio 是 MaxCompute 新推出的数据集成开发环境(IDE),为开发者提供了 数据开发调试 - 命令行工具集成 - 自助作业分析诊断 的全面解决方案. 我将通过 MaxCompute Studio 的智能代码编辑能力.数据管理及浏览能力.作业可视化和自助诊断能力等展现 MaxCompute 平台的数据开发和部署的强大和敏捷性. 观众受益:带领大家实现数据仓库