技术基础:大数据分析技术的发展

大数据分析技术最初起源于互联网行业。网页存档、用户点击、商品信息、用户关系等数据形成了持续增长的海量数据集。这些大数据中蕴藏着大量可以用于 增强用户体验、提高服务质量和开发新型应用的知识,而如何高效和准确的发现这些知识就基本决定了各大互联网公司在激烈竞争环境中的位置。首先,以 Google为首的技术型互联网公司提出了MapReduce的技术框架,利用廉价的PC服务器集群,大规模并发处理批量事务。

利用文件系统存放非结构化数据,加上完善的备份和容灾策略,这套经济实惠的大数据解决方案与之前昂贵的企业小型机集群+商业数据库方案相比,不仅没 有丢失性能,而且还赢在了可扩展性上。之前,我们在设计一个数据中心解决方案的前期,就要考虑到方案实施后的可扩展性。通常的方法是预估今后一段时期内的 业务量和数据量,加入多余的计算单元(CPU)和存储,以备不时只需。

这样的方式直接导致了前期一次性投资的巨大,并且即使这样也依然无法保证计算需求和存储超出设计量时的系统性能。而一旦需要扩容,问题就会接踵而 来。首先是商业并行数据库通常需要各节点物理同构,也就是具有近似的计算和存储能力。而随着硬件的更新,我们通常加入的新硬件都会强于已有的硬件。这样, 旧硬件就成为了系统的瓶颈。为了保证系统性能,我们不得不把旧硬件逐步替换掉,经济成本损失巨大。其次,即使是当前最强的商业并行数据库,其所能管理的数 据节点也只是在几十或上百这个数量级,这主要是由于架构上的设计问题,所以其可扩展性必然有限。

而MapReduce+GFS框架,不受上述问题的困扰。需要扩容了,只需增加个机柜,加入适当的计算单元和存储,集群系统会自动分配和调度这些资 源,丝毫不影响现有系统的运行。如今,我们用得更多的是Google MapReduce的开源实现,即Hadoop。除了计算模型的发展,与此同时,人们也在关注着数据存储模型。传统的关系型数据库由于其规范的设计、友好 的查询语言、高效的数据处理在线事务的能力,长时间地占据了市场的主导地位。

然而,其严格的设计定式、为保证强一致性而放弃性能、可扩展性差等问题在大数据分析中被逐渐暴露。随之而来,NoSQL数据存储模型开始风行。 NoSQL,也有人理解为Not Only SQL,并不是一种特定的数据存储模型,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的 反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据库、列存储等。而比较流行 的,不得不提到Google提出的Bigtable。

Bigtable是一种用于管理海量结构化数据的分布式存储系统,其数据通常可以跨成千个节点进行分布式存储,总数据量可达PB级(10的15次方 字节,106GB)。HBase是其开源实现。如今,在开源社区,围绕Google MapReduce框架,成长出了一批优秀的开源项目。这些项目在技术和实现上相互支持和依托,逐渐形成了一个特有的生态系统。这里借用Cloudera 所描绘的架构图来展现Hadoop生态系统。这个系统为我们实现优质廉价的大数据分析提供了坚实的技术基础。

(责任编辑:蒙遗善)

时间: 2024-09-27 17:07:37

技术基础:大数据分析技术的发展的相关文章

大数据分析技术深度发展 智能交通呈现三大趋势

随着移动互联网.人工智能.大数据.云计算等新一代技术在汽车和交通领域的逐步应用,交通体系与出行方式变革已经开始.当前,新一轮科技革命蓄势待发,一大批以"绿色.智能.泛在"为特征的巨大技术变革正在孕育.物联网.大数据.云计算,移动互联网等新一代信息技术的快速发展,为道路智能交通提供了强大的技术支持. 大数据分析技术的深度应用,将驱动道路交通运输实现精准管理和信息服务,北斗定位导航.移动互联网,高精度地理信息等系统,将成为推动建设新一代道路智能交通系统的基础,交通运输行业新模式.新业态.新

健康大数据分析技术有哪些?

21世纪是以生命科学为主导.科学技术迅猛发展的世纪,科技竞争力已成为决定国家前途和命运的重要因素,是推动经济发展.促进社会进步和维护国家安全的关键所在.医学在生命科学中占有极其重要的地位,卫生科技的创新和进步,将促进医疗卫生事业的发展,提高全民族的健康素质,增强中国的科技竞争力和综合国力.世界最新医学科研技术是包括医学.药学.分子生物学.数学.计算科学.以及大数据分析技术等多种学科和技术的综合. 大数据分析技术主要包括是以最新应用数学.前沿计算科学和信息工程学为核心,以数据挖掘.数据仓库.商务智

大数据分析技术的新平台

在Gartner的发展规律周期(hype cycle)中,大数据还在节节高升,一个全新的大数据服务供应商类别又诞生了.这一消息对MetaScale是最不陌生的了.该公司在今年四月进入大众视野,是Sears Holdings的全控股子公司. MetaScale位于美国伊利诺斯州的霍夫曼斯特市,是一家在基于云计算的模型中运营的管理大数据服务供应商.也就是说,MetaScale可以向那些准备采用大数据分析技术但又没有相关架构或者能力的客户,提供不同程度的足够的所需支持. 在本文中,记者编辑就大数据的挑

大数据分析技术生态圈一览

大数据领域让人晕头转向.为了帮助你,我们决定制作这份厂商图标和目录.它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域.我们希望这份资料新颖.实用. 这是一款面向Hadoop的自助服务式.无数据库模式的大数据分析应用软件. Platfora 这是一款大数据发现和分析平台. Qlikview 这是一款引导分析平台. Sisense 这是一款商业智能软件,专门处理复杂数据的商业智能解决方案. Sqream 这是一款快速.可扩展的大数据分析SQL数据库. Splunk 这是一款运维智

百度与广发银行合作 提供大数据分析技术

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 网易科技讯 9月22日消息,百度与广发银行今天达成战略合作,双方将围绕大数据和LBS技术开展在银行业.互联网金融业务的合作. 对于正在寻求转型的传统金融业来说,如何从海量的数据中发掘有价值的信息尤为关键.百度副总裁张东晨称,此次合作将利用百度对大数据的处理经验,将百度的数据资源开放给广发银行,为广发银行的业务运转提供数据支持. 据介绍,此次百度与广发银行的合作将利用百度的大数据分析技术,向广发银行的客户提供包括理财产品推介.风险能力评估等在

运用大数据分析技术 防范电信诈骗

近日,记者从工行东莞分行获悉,该行充分运用大数据分析技术,通过工行自行开发的外部欺诈风险信息系统--"融安e信",2015年累计成功堵截电信诈骗22笔,为客户避免资金损失26.9022万元.其中自助渠道堵截17笔,涉及金额25.752万元:柜面渠道堵截5笔,金额1.1502万元,有力地保障了客户资金安全. 据该行有关负责人介绍,为有效破解电信诈骗防控难题,切实保护客户资金安全,中国工商银行早于2013年即在国内银行业中率先投产了外部欺诈风险信息系统--"融安e信".

大数据分析技术涵盖的5个方面

由于大数据的特殊性,大数据分析技术还处于发展阶段,老技术会日趋完善,新技术会更多出现. 1.可视化分析 数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能.数据图像化可以让数据自己说话,让用户直观的感受到结果. 2.数据挖掘算法 图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语.分割.集群.孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值.这些算法一定要能够应付大数据的量,同时还具有很高的处理速度. 3.预测性分析能力 数据挖掘可以让分析师对数据承载信息更快更好地消化

NEC应用大数据分析技术成功研发大型设备故障监测系统

近日, IT&通信领先企业NEC应用大数据分析技术,成功开发出 "大型设备故障预兆监测系统",可应用于发电站.工厂等大型设施的故障监测. 通过该系统,操作员可从庞大的信息量里自动定义出设备的健全运行状态,通过同实时数据进行http://www.aliyun.com/zixun/aggregation/8007.html">对比分析,在设备故障前发现异状.由于在系统中融入了NEC专利的传感器信息大数据分析技术--Invariant,操作员无需进行复杂设置及专业知识

IBM大数据分析技术再升级

11月30日,IBM宣布,作为业界最全面大数据解决方案提供商,IBM正在积极实践一系列全新大数据分析解决方案,帮助数字营销.客户服务.运营管理.财务绩效等不同领域的客户从激增数据中获取可行动的洞察,转换与顾客.员工和合作伙伴的互动方式,赢得业务先机.在此前的2012 IBM信息随需应变和业务分析峰会(IOD)上,IBM以"Think Big"."Big Data"和"Big Future"为主题,再次强调了大数据时代大洞察的重要意义,以客户实际经