大数据架构的未来

本文讲述了大数据的相关问题,以及“大数据架构”得名的由来。

大数据的问题

或许所有读者都明白这一点:数据正在飞速增长。若是能够有效利用的话,我们能从这些数据中找到非常有价值的见解;传统技术有很多都是在40年前设计的,比如RDBMSs,不足以创造“大数据”炒作所宣称的商业价值。在大数据技术的使用上,常见的案例是“客户单一视图”;将关于客户所知道的一切内容放在一起,以便最大化服务提供与自身收入,比如确定具体需要采用什么促销方式,又是在什么时候、通过什么渠道来发送。

尽管大数据的问题在于,让我们将这种潜力变为现实,高等级的关键功能至少包括下面这些能力:

合并信息孤井、外在因素与数据流;

控制数据访问;

根据需要转化数据;

整合数据;

为数据分析提供工具;

发布数据报告;

将见解体现在运营过程中;

最小化工作完成的总拥有成本与响应时间。

用数据湖作为答案

很多公司正在观望一个被某些人称为数据湖的架构,这个数据平台在合并信息孤井数据流以及在单独的逻辑位置中执行数据持久化方面具有灵活性,能够从企业自身以及第三方的数据中挖掘出见解。将Hadoop(包括Spark在内)用于数据湖已成大势所趋,原因很多:使用总拥有成本较低的普通硬件就能进行扩展,允许用读时模式(schema-on-read)收取大量数据,支持开源,包括用SQL和普通语言构建分布式处理层。此外,像雅虎和谷歌这样的webscale公司都是早期标杆,借用这种架构在解决网站索引相关的问题时获得了巨大的成功。

Hadoop中的数据持久化选项

这样一来,从这里开始评估数据湖解决方案的前景似乎很合理。一旦开始从更深的层次理解Hadoop的内涵,你就会发现里面所包含的项目真的是包罗万象,涵盖了数据处理的方方面面。用Hadoop在数据湖中探测存储的数据时,有两个主要选项:HDFS和HBase。使用HDFS时,可以自行决定如何在只添加文件中对数据进行编码,包括JSON、CSV、Avro等等,因为HDFS只是一个文件系统,编码方式全由你决定。相反,HBase是一个数据库,其特有的数据编码方式可以将记录写入的速度最优化,在通过主键查询时执行只读的速度相对也很快。

这也是用Hadoop的数据湖之魅力所在,它能实现真实情况下的需求。因此,我们就能使用Hadoop来执行上面列出的高层次需求了。在像Spark和Hive这样的Hadoop生态系统中,仍需用到分布式处理层,但不需HDFS或HBase了,因此你可以从分布式处理层中选择持久化层面。之前的博文中有相关案例,描述了使用Spark在MongoDB中读写数据。还有一篇博文也很类似,证明了MongoDB只是读取数据的另一个Hive表格。

索引仍旧很重要

大多熟悉RDBMSs的技术人员发现,从表达查询能力到二级索引,再到加速查询全都价值巨大(即便模式固定、总拥有成本高以及RDBMSs的可扩展性有限,这些使得它很难被用作数据湖)。如果我们在数据库持久化中只用到HDFS和HBase,就无法实现我们期待的数据库临时索引了,特别是遇到下面几个限制时:

临时切片:不通过二级索引,我们如何对不止一个主键标识出的数据切片进行有效地分析呢,例如对我们的最佳客户——那些消费金额超过X的客户进行分析?由于数据太过巨大,想要通过扫描找出最佳客户都会令工作卡住。

低延迟报告:如果没有灵活的索引方式,我们如何在次秒级时间内响应客户的需求,为他们提供有价值的数据报告呢?再次,我们只能使用消费者的账户号或者其他主键来进行快速报告,而不是通过消费者的姓名、电话号码、邮编、花费等等。特别提到:MongoDB刚刚为基于SQL的报告工具发布了BI Connector。

运营化:同样地,我们如何将有价值的见解引入应用运营中,从而在最大化影响公司和消费者的同时将数据变现?想象一下客服专员(CSR)告知消费者,因为数据湖仅支持这个主键,他必须提供账号才能查询所有的信息;或者查询需要10分钟时间。

当然,其中有些问题可以通过变通方法解决,不过会导致总拥有成本更高、开发或运营工作更多、延迟也更高。例如,使用搜索引擎或者实体化视图而不是通过主键来查询;不过稍后还需返回到数据库,在有完整记录的数据库中对主表进行再次查询,以获得所需的完整信息。除了延迟翻倍之外,还需要耗费额外的管理、开发工作,以及单独搜索引擎需要的基础设施,还有实体化视图所需的维护,加上将数据写入到其他地方造成的一致性问题。保持我们的设计原则,只用我们用惯的普通灵活索引不是很好么?

MongoDB是一个有效数据湖的重要部分

我们开始讨论,探索单用Hadoop是否能满足数据湖的需求,并发现了至少3个问题。我们能否在架构中另加一层持久化层面来解决这些问题,同时保持设计原则——使用低总拥有成本的普通硬件、开源模式、读时模式还有Hadoop分布式数据层——与之前一致呢?

我选择本文的主题是因为,MongoDB就是在Hadoop-only数据湖中,补位最优秀的数据库。如果使用另一个开源NoSQL数据库,就会发现其中几乎不含二级索引(使用二级索引会导致无法同步数据),也没有分组和聚合功能。你可以使用其中一些数据库将数据写入数据湖,不过如果出于商业需求想要以灵活的方式使用二级索引读取的话,是做不到的。如果想要在数据湖中使用开源RDBMS,我们已经说过,它们固定的模式、昂贵的垂直扩展模型都违背了我们设计数据湖的原则。

因此,推荐使用下面的架构来构建数据湖。

MongoDB对数据湖非常重要

这个架构将MongoDB作为持久化层面加入任何需要表达查询的数据集中,正与你需要索引的三个原因(上面列举了)相关。由于需求数据来自消费者,无论是否将数据发布到HDFS和/或MongoDB中,我推荐用governance function来确定。无论存储到HDFS或者MongoDB上,就可以运行分布式处理任务,比如Hive和Spark。不过如果数据在MongoDB上,因为筛选标准下放到数据库中,不像在HDFS中那样扫描文件,你就能在数据临时切片上运行有效分析了。与此相似,MongoDB中的数据也可用于实时、低延迟报告,并为构建的应用所用到的所有系统提供运营数据平台服务。

如今一些公司只是将数据复制到Hadoop中进行转换,然后再复制到其他地方,用于完成有价值的工作。为什么不直接利用数据湖,发挥最大价值呢?使用MongoDB可以将价值多次翻倍。

结论

观察长期与短期需求,确保这些需求可以通过核心Hadoop分布中的最佳工具,以及MongoDB这样的生态环境实现,数据湖对你而言就是有价值且而可行的。一些企业在使用数据湖时,只花费一年时间清洗所有数据,然后将其写入HDFS,希望在未来能用这些数据获取价值。结果却失望地发现这些数据毫无价值,事实上在数据与消费者之间还存在另一种batch layer层面。

通过将Hadoop与MongoDB合并,数据库可以确保成功,并是一个保持较低的总拥有成本,最快响应所有用户(数据科学家、分析师、商业用户、消费者自身)的灵活数据平台。有了数据湖,公司和员工就能用它来获取独特的见解,与客户进行有效沟通,将数据变现并战胜竞争对手。

本文转自d1net(转载)

时间: 2024-09-20 07:23:53

大数据架构的未来的相关文章

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

物联网中的大数据架构、应用案例以及带来的好处

第一节 简介 近年来"物联网"(IoT)和"大数据"是两个最受瞩目的话题.在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结.这包括了手机.咖啡机.洗衣机.耳机.台灯以及可穿戴的设备,很多物品都是属于这个范畴(图 11.1).这也适用于机器零件,例如:飞机的喷气发动机或石油钻井平台的钻头.无论有没有意识到这一点,我们的生活周围已经被这些依赖于大数据的东西所包围了,不过这也使得生活更美好.     图 11.1 物联网在连接设备的应用

【大数据100分】大数据架构及行业大数据应用(中级教程)

[大数据100分]南大通用CTO武新:大数据架构及行业大数据应用[大数据中级教程] 主讲嘉宾:武新 主持人:中关村大数据产业联盟 副秘书长陈新河 承办:中关村大数据产业联盟 武新,南大通用高级副总裁兼CTO,法国奥尔良大学和法国国家科研中心博士:南大通用GBASE系列数据库产品的总设计师.在著名的甲骨文公司任职12年,是世界顶级的Oracle数据库专家.2010年获得中组部实施的国家"千人计划"荣誉(海外高层次人才引进计划),是国内基础软件行业唯一入选的数据库技术专家.对目前最新兴的列

大数据应用的未来发展在何方?

时至今日,我们的数据管理能力日益提升,但数据分析能力则相对落后.尽管工具与流程皆已齐备,但仍然缺少充足的数据科学家人员.在今天的文章中,我们将专注于能够交付实际分析结论的大数据应用,同时追踪其发展及当前状态,最终借此窥探大数据技术的未来发展方向 早期大数据技术采纳方指明令人感兴趣的跨行业发展可能性 根据2012年<福布斯>杂志发表的文章,早期大数据技术采纳方主要来自金融服务.电信.制造(特别是消费级产品)以及政府领域. 早期采纳方在起步阶段会使用其新近安装的大数据基础设施(例如HDFS.Map

Hadoop之父Doug Cutting眼中大数据技术的未来

上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝. Doug Cutting成长史 1985年毕业于美国斯坦福大学的Cutting并不是一开始就决心投身IT行业的.在大学时代的头两年,Cutting学习了诸如物理.地理等常规课程.因为学费的压力,Cutting开始意识到,自己必须学习一些更加实用.有趣的技能.这样,一方面可以帮助自己还清贷款,另一方面,也是为自己未来的生活做打算

大数据架构面临技术集成的巨大障碍

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求.但把所有的技术集成在一起并不是一件容易的事. IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求.但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务. 在不断扩展的Hadoop生态系统中,选择和部署合适的大数据技术是一个长期反复的过程,周期要以年计.除非公司管理者愿花大量财力和资源来加速推动项目.选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图

大数据之市场未来2年趋势和IT投入重点

文章讲的是大数据之市场未来2年趋势和IT投入重点,为了准确描述中国大数据市场和技术发展趋势,解析大数据发展的各阶段对IT技术的需求,2013年6月,中桥国际调研咨询(以下简称中桥)对中国480家最终用户的IT管理者和专业人员,就大数据市场和技术发展趋势展开了调查.之后中桥首席分析师王丛,将结合其在欧美数据中心领域十几年的市场调研积累,对中国大数据市场趋势的调查数据进行解析,以诠释中国大数据市场和技术趋势.同时,会通过在线讲座(www.webinars-china.com ),和中国读者解读中国大

富士通大数据架构解决方案闪耀存储峰会

文章讲的是富士通大数据架构解决方案闪耀存储峰会,世界领先的ICT综合服务商富士通(Fujitsu)近日亮相2013(第九届)中国存储峰会.作为目前国内存储界规模最大和历史最长的存储大会,本届存储峰会以"数据造化 智见未来"为主题,包括富士通在内的30多位专家发表演讲,共同探讨大数据时代下的数据价值.透视未来发展的宏伟蓝图.在会上,富士通(中国)信息系统有限公司产品战略事业部总监李帆与现场嘉宾分享了主题为<富士通大数据架构解决方案>的演讲.他指出大数据时代本质:是科技创新的量

遭遇云计算 大数据架构对系统提出挑战

大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多 TB(1TB=1000GB)数据集用于商务智能和商务分析:到2020年,全球数据使用量预计暴增44倍,达到35.2ZB(1ZB=10亿TB). 大数据面临的挑战 对于海量的数据信息,如何对这些数据进行复杂的应用成了现今数据仓库.商业智能和数据分析技术的研究热点.数据挖掘就是从大量的数据中发现隐含的规 律性的内容,解决数据的应用质量问题.充分利用有用的数据,废弃