浅析传统关系数据库面临大数据的挑战

文章讲的是浅析传统关系数据库面临大数据的挑战,什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案。20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理。

  随着社会计算的兴起,人们习惯于在网上分享和交流信息。比如,社交网站Facebook拥有庞大的用户群,而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数,其数据量已经达到PB级别,传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统,现在又采用HBase,这些针对海量数据的管理系统能够较好地为用户提供服务,而且具有可扩展性和容错性,这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战,消息的发送量达到每天数亿条,而查询量则达到每天数十亿次,这要求存储管理系统不仅能够存储大规模数据,而且能够提供高吞吐的读/写服务。Twitter原先使用MySQL数据库,之后由于用户暴增便将数据迁移到NoSQL系统上,尽管NoSQL系统还未成熟,但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题,如Goolge搜索引擎需要处理大规模的网页信息,YouTube则需要存储和提供用户分享的视频数据,维基百科提交用户分享的知识等,这些都涉及大规模数据信息存储与管理。

  随着电子商务的发展,越来越多的人在网上选购商品,商务网站需要存储大量的商品信息和用户的交易信息,涉及大规模的数据。同时网站需要提供迅速的请求响应,以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析,以便更有针对性地向用户推荐商品,海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据,同时不断探索自己的解决之路,开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案,其基于Hadoop建立了自己的集群系统Athena来处理大规模数据,同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时,各大零售公司无论是在线销售还是实体销售,都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品,这些都涉及大规模数据的应用。

  各个领域的科学研究同样面临海量数据的挑战,从生物基因到天文气象,从物理实验到临床医学,得益于测量技术和设备的发展,这些领域在实验或实践中产生了大量的数据,而人们需要对这些数据进行处理分析从而挖掘出有价值的信息,但这不是容易的事情。随着下一代基因测序技术的发展,基因中所蕴含的信息逐渐被人们所发掘,人们获得更多更准确的基因数据,但是如何匹配基因数据,如何从这些数据中挖掘出所需要的信息,这是生物信息学遇到的新挑战。在环境气象研究中,科学家已经收集了数十年甚至上百年的气象环境数据,在这些数据中分析气候的变化需要海量数据处理技术的支持。在医学药物研究中搜集的大量的病人生理数据和药物测试数据,这些数据的规模很大,需要从中分析出有用的信息。在人文社会科学中,社会学家开始注意互联网社交网络上的人际交往和社会关系,其涉及的数据量也是非常巨大的,从海量数据中找出社会学家感兴趣的内容是富有挑战性的。人工智能研究方面,人们希望计算机拥有人类的学习能力和逻辑推理能力,这就需要机器存储大量的经验数据和知识数据,还需要从这些大量数据中迅速获得所需要的内容,并对其进行分析处理,从而做出正确有效的判断。

  如今传感器的广泛使用,数据采集更加方便,这些传感器会连续地产生数据,如实时监控系统、网络流量监测等。除了传感器源源不断地产生数据外,许多领域都会涉及流数据,如经济金融领域中股票价格和交易数据、零售业中的交易数据、通信领域中的数据等都是流数据,这些数据最大的特点就是海量,因为它们每时每刻连续不断地产生,但与其他的海量数据不同,流数据连续有序、变化迅速,而且对处理分析的响应度要求较高,因此对于流数据的处理和挖掘往往采用不同的方法。经济金融领域各个方面都产生海量数据,如证券价格变化和股票交易形成的流数据,企业或个人各种经济活动而产生的数据等。现代经济已经步入海量数据时代,在新时代下可以带来创新和生产率增长,并可能出现新的商业模式。利用好经济生活产生的海量数据,可以发挥重要的经济作用,不仅有利于企业的商业活动,也有利于国民经济,提高国家的竞争力。面对大规模的经济数据,人们除了需要提高获取、存储和分析数据的能力,同时需要保障数据的安全和隐私,但这仍然是巨大的挑战。

  传统的关系型数据库并不能够很好地解决海量数据带来的问题,单机的统计和可视化工具也变得力不从心。一些新的数据管理系统如并行数据库、网格数据库、分布式数据库、云平台、可扩展数据库等孕育而生,它们为解决海量数据提供了多种选择。

  作者简介

  陆嘉恒,中国人民大学副教授,新加坡国立大学博士,美国加利福尼亚大学尔湾分校(University of California, Irvine) 博士后。本文来自陆嘉恒的新书《大数据挑战与NoSQL数据库技术》。

作者:陆嘉恒 

来源:IT168

原文链接:浅析传统关系数据库面临大数据的挑战

时间: 2025-01-19 18:50:15

浅析传统关系数据库面临大数据的挑战的相关文章

传统制造业面临大数据的7种改变方式

文章讲的是传统制造业面临大数据的7种改变方式,中国是个制造业大国,在工业企业信息化.数据化.数据创新领域可以做的事情很多.应用数据的思维古已有之,如同所谓的互联网思维,其实几十年前的营销学原理就有涉猎.关键在于我们能通过适当的技术与工具把数据联结起来,进行分析,进行跨界创新应用.然而问题也跟着来了,制造业对大数据怎样看待和认识的? ▲图片来源于网络 制造业并不是信息化发达的行业,从流程的传统粗糙就体现出来.即便有现代化的设备,整体的信息化方案多数也是高科技企业类似某些设备的制造商以及代工厂商.在

人们将面临大数据无法进行预测分析挑战

文章讲的是人们将面临大数据无法进行预测分析挑战,你是否认为大数据时代会有足够多的信息来支持建立强大分析,其实不然.有的情况中即便大量数据也不能保证基本预测的正常运行.多数时间,我们没有做到更多的事,所以只能默默承受这事实坚持最基本的.这是为什么我们要讨论当面临大数据不能预测分析未来的挑战时的情况. 场景一 以某家航空公司制造商举例,事物很少却有大量数据就难找到有意义的模式.运行的飞机每小时产生数据可达千兆字节,发动机在不同条件下操作,分析操作数据好处很多.像是预测性维护,对于分析行为来说或许困难

互联网公司如何看待大数据及挑战

"数据"时代的到来,对于每个人和每一个企业都将产生重大的影响.其实早在1980年,著名未来学家阿尔文·托夫勒便在<第三次浪潮>一书中,就将大数据热情地赞颂为"第三次浪潮的华彩乐章".这两年刚刚开始对大数据的热议,虽然现在很多人对 "大数据"还是摸不着头脑,但是大型http://www.aliyun.com/zixun/aggregation/3518.html">互联网公司已经注意到了大数据技术的无穷魅力,并运用它们为

传统IDC面临的机遇与挑战

本文讲的是传统IDC面临的机遇与挑战,云计算被称为全球范围内最值得期待的技术革命,而云计算之所以在全球范围内带来普遍的关注,是因为它所标志的,不只是一项新技术,还是因技术而引发的整个产业的一次变革,在经历过前期的概念普及.技术成熟.市场培育等阶段之后,云计算正在全面走向应用落地. 云计算的虚拟数据中心最本质的改变在于软件和服务.软件包括实现存储.计算能力调用.计费.安全等化.分布式等技术:而服务的改变则意味着传统物理机房的运维DNA将作为优质服务的前提条件,而非全部内容.运维工程师由维护物理机房

10年老兵带你看尽MaxCompute大数据运算挑战与实践

本文根据阿里云大数据计算平台资深架构师林伟在大流量高并发互联网应用实践在线峰会上题为<MaxCompute大数据运算挑战与实践>的分享整理而成.分享中,他主要介绍了在大数据.大流量.高并发情况下MaxCompute所面临的挑战,以及应对这些挑战的实践经验. 直播视频:点击此处观看 幻灯片地址:点击此处下载 以下为在线分享观点整理. 什么是MaxCompute? 大数据计算服务(MaxCompute,原名ODPS)是一种快速.完全托管的PB/EB级数据仓库解决方案,具备万台服务器扩展能力和跨地域

南大通用突破传统 展示新型大数据平台

文章讲的是南大通用突破传统 展示新型大数据平台,2013年3月8日,国产数据库厂商南大通用主办的"国产新型大数据平台开放日"活动在天津海泰绿色发展基地成功举办,吸引了来自国家部委的领导.专家.行业用户.合作伙伴及媒体等百余人到场,共同见证了国内首个最大规模的行业大数据处理平台,并就大数据行业应用进行了深入细致的探讨. ▲南大通用CTO武新博士 大数据引发数据行业变革 南大通用CTO武新博士的演讲<大数据如何引发数据行业变革>,继而通过对数据处理架构改变及技术创新的解释,说明

中国电信王峰:数据整合成运营商大数据最大挑战

今天,"第五届中国云计算大会"在北京国家会议中心举行.本届大会以"大数据大带宽推动云计算应用与创新"为主题,历时3天.2013年,是云计算与http://www.aliyun.com/zixun/aggregation/13565.html">大数据产业落地的关键一年.自2006年云计算概念提出至今,全球云计算历经六载蓬勃发展,越来越多的云服务开始落地. 中国电信云计算公司总经理王峰在大会演讲中表示,自2009年启动天翼云计划以来,中国电信稳扎稳打,

CIO面临大数据架构的选择困境

对于大数据的架构,CIO面临着一个存在已久的选择困境:买入还是自建?新的业务问题.厂商方案的稀缺和大量新技术的涌现,都加大了决策的困难.而且,相关的名词是如此的模糊不清,比如大数据等. 随着特斯拉宣称将在2017年推出廉价的电动汽车,这种感觉愈发强烈.但是,在IT圈内,CIO们更关注Elon Musk(特斯拉的CEO和产品架构师)是如何让其CIO去应对这个挑战的:构建自己的企业资源规划系统(ERP),而不是基于SAP来进行升级改造. 这不仅仅是ERP方面的工作,而是开创了一种潮流.在MIT斯隆C

大数据模式挑战搜索引擎 垂直领域最先竞争

当搜索引擎之间你来我往的相互争夺的时候,一个看起来和搜索引擎没有交集的应用开始让搜索引擎企业开始感到了丝丝寒意,那就是大数据平台,特别是目前的电商平台,虽然搜索引擎也参与到电商的搜索服务中,可是更多的迹象表明,传统的搜索引擎将会逐渐丧失这个市场领域,而以此类推,当不同的行业都开始出现一些大数据网站的话,在这个基础上的搜索引擎还有活路么,答案肯定是否定的. 大数据的悄然转型 如果说亚马逊和国内的阿里巴巴在不断收集电商数据是为了自己为客户提供更好的服务,那么当数据等级不断爆棚时,这些数据就成了这些网