如何管理大数据过载

对存储容量复杂而无止境的需求让存储管理员感到十分头疼。以下我们将为大家介绍一些如何应对数据洪流的方法。

以往只有科研人员、互联网巨头以及亚马逊、推特、脸谱和Shutterfly等社交媒体巨头面临这样的问题,但是现在越来越多的企业开始尝试通过大数据挖掘来发现手中所掌握的有价值的信息,并以此获得竞争优势。如今,沃尔玛、金宝汤、辉瑞默克和Wawa连锁便利店等公司正在为他们的大数据制订一套宏伟的计划。

为了更快的回应客户、更好的追踪客户信息或是更迅速的向市场导入新产品,许多公司开始投资大数据分析。

市场研究机构IDC存储分析师Ashish Nadkarni称: “对于身处互联网时代的任何公司来说,如果他们不这样做,那么他们的竞争对手就会这些做。”

目前所有机构都在逐渐被来自内部和外部的数据所淹没。在这些数据中,许多数据是实时传输过来的,其中又有许多数据只会被用上几分钟、几小时或是几天时间。

市场研究公司Aberdeen Group表示,因此而带来的存储需求增长对大型企业来说尤为棘手。在这些大型企业中,从2010年至2011年,结构化和非结构化数据所需要的存储容量平均增长了44%。无论多大规模的公司,数据存储需求每隔2.5年就会翻一番。而且,对视频存储、电子表格、格式化数据库和纯非结构化数据进行优化分别需要不同的工具。

Aberdeen 集团虚拟化和存储分析师Dick Csaplar 称:“能够让存储方面的花销不随存储需求增长而增长是一个挑战。”能够帮助主流大数据用户避免陷入这一恶性循环的技术有存储虚拟化、去重和存储分层技术。对于科研人员、社交媒体网站与仿真项目开发人员等大数据重度用户,面向对象的和关系型数据库存储都是不错的选择。

与内部日常存储平台相比,为了以易于访问的格式存储拍字节级(和更大规模)数据,系统在设计上要更为复杂。以下是专家对管理和存储大数据提出的一些建议。

你正在分析什么类型的数据?

所需的存储类型取决于你分析的数据类型与数量。全部数据均有一个保存期限。例如,股票报价只在价格变动前的一或两分钟内重要。棒球比赛得分对于人们来说只需要保存24小时或是直到下一场比赛时。这一类型的数据在最需要的时候应当保存在主存储器中,随后即可以转移至廉价的存储器内。多年来的观察已经证明了这一理念,即被长期存储的数据通常并不需要存储在容易被访问到的主驱动器上。

你实际上需要多大存储容量?

在存储大数据时,你需要的存储容量和类型取决于你所需要存储的数据大小和这些数据的使用时限。

在大数据分析中涉及三种类型的数据。Nadkarni称:“它们能够将来自多个来源的数据每秒源源不断的传输给你,在这些数据失去时效性之前,你的时间切片应当为数分钟。”这类数据包括天气、交通、社交网络上的趋势话题和关于全球事件的推文等更新信息。

大数据还包括了那些休眠数据或是公司为了适度使用而生成和控制的数据。

数据传输需要快速捕获和分析能力。Nadkarni称:“一旦你分析了它们,你就不再需要它们了。但是对于休眠数据或被公司控制的数据,你应当将它们存储起来。”

哪种类型的存储工具更合适?

对于那些刚开始涉足大数据存储和分析的公司,行业观察人士建议采用将所有的存储将放在一个保护伞下的存储虚拟化技术、去重压缩数据技术和分层存储方案,以确保最有价值的数据被存储在最容易被访问的系统中。

存储虚拟化提供了一个软件抽象层,让用户无法找到物理设备,并且允许所有设备作为一个单一的池被管理。尽管服务器虚拟化已经成为了目前IT基础设施中一个成熟组件,但是存储虚拟化仍然未被广泛接受。

在2012年2月份,Aberdeen对106家大型公司进行了调查。结果显示,仅有20%的受访者表示他们拥有一个单独的存储管理应用。平均下来,3个管理应用对应3.2个存储设备。

尽管如此,许多存储厂商并不愿意让自己生产的设备接受其他厂商产品的管理。Csaplar称:“存储虚拟化非常复杂并且极为耗时。因此它们无法像服务器虚拟化那样被广泛接受。”相反,许多存储管理员正在关注针对第三或第四层存储的云解决方案,因为云方案能够更为容易地在不同基础设施之间转移数据,同时可以降低存储成本。他补充称:“许多公司已经这么做了,并且收到了良好的效果,但是距离人们的期望值还存在一定的差距。”

Csaplar希望看到,随着网络连通性的改善、成本的下降以及传输过程中数据加解密能力的提升,云存储和其它基于云的计算资源的使用率在不久的未来出现增长。他称:“有了云,你可以从运营预算中结算每月的账单,而不无需单独的资金预算。”

(责任编辑:蒙遗善)

时间: 2024-09-28 19:26:54

如何管理大数据过载的相关文章

Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步.目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,大讲台了解这一情况后专门在网上开通了这一门大数据培训课程,下面来介绍一下关于Hadoop环境中管理大数据存储技巧吧. 1.分布式存储 传统化集中式存储存在已有一段时间.但大数据并非真的适合集中式存储架构.Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能. 虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上.但这也

管理大数据存储的十大技巧

在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的--虽然是横向扩展型--直连式存储,这有助于Hadoop管理数据本地化,但也放弃了共享存储的规模和效率.如果你拥有多个实例或Hadoop发行版,那么你就将得到多个横向扩展的存储集群. 而我们所遇到的最大挑战是平衡数据本地化与规模效率,这是一个鱼与熊掌兼得的话题. 数据本地化是为了确保大数据集存储在计算

专家总结:有效管理大数据的7个诀窍

大学教授和统计学家们对数据大张旗鼓的推崇与使用,引导了一个新的行业诞生,那就是大数据的收集与管理.专家们认为,几乎所有的行业都会对大数据有所贡献.但因为大数据行业较新,所以管理大数据的方法并没有明确的阐释. 如果你正在寻求管理自身数据的方法,那么这篇文章会对你有很大帮助,首先,让我们纠正一下基本概念. 什么是"大数据"? Greg Satell在福布斯杂志中曾说过:"在尝试管理大数据之前,首先要明白这个词的意思是什么.虽然"大数据"这个名词现已十分流行,很

管理大数据:监测系统创造新的收益

管理大数据,维护合规性已成为信息治理的重要组成部分,但GRC过程还能帮助产生新的收益吗? 随着公司持续产生和存储前所未有的大数据,监管机构正在制定和实施更多的新规则,来定义信息系统设计和维护的标准. 监管机构得出结论,监测系统是保证大数据内容资产,作为公司行为的真实记录,是可信的唯一方法,同时证明其遵守相关流程和文档要求. 因此,当涉及到管理大数据,信息治理专员现在必须投入到复杂的,新的大数据系统的设计和工程中. 当然,这也提高了合规性成本,进一步加重了信息治理经理的负担,以确保获得实现其他业务

看国内第一家上市公司如何管理大数据

文章讲的是看国内第一家上市公司如何管理大数据,宏源证券股份有限公司(以下简称宏源证券)是国内第一家上市的证券公司,也是地方性券商成功转变为全国性券商的代表之一.在市场不景气的情况下,宏源证券仍然保持了业务的平稳.较快发展,在全国的营业网点已经超过80个.宏源证券信息技术总监.信息技术中心总经理王海航在向记者介绍公司的背景时言语中流露出了一种自豪.其实,更让王海航感到骄傲的是,宏源证券在利用信息技术支撑业务发展与创新方面走出了一条属于自己的特色之路. "心病"还需"新药&quo

盘点管理大数据存储的十大技巧

在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的--虽然是横向扩展型--直连式存储,这有助于Hadoop管理数据本地化,但也放弃了共享存储的规模和效率.如果你拥有多个实例或Hadoop发行版,那么你就将得到多个横向扩展的存储集群. 而我们所遇到的最大挑战是平衡数据本地化与规模效率,这是一个鱼与熊掌兼得的话题. 数据本地化是为了确保大数据集存储在计算

红帽JBoss数据网格6版本更好的管理大数据 - 产品和技术

红帽JBoss数据网格6版本更好的管理大数据 发布时间:2012.06.29 14:20      来源:赛迪网     作者:赛迪网 [赛迪网讯]近日,红帽宣布内存数据网格解决方案红帽JBoss数据网格6版本正式上市.红帽JBoss数据网格6专门设计的几个最新特性能帮助企业用户减少关联数据库的需求,让应用软件研发能更好地管理大数据. 管理大规模数据的挑战是企业用户所面临的前所未有的挑战之一.这种挑战还将继续加剧,有行业观察家指出,到2015年,全球的互联网流量将达到万万亿的上限,比2010年的

看国内第一家证券上市公司如何管理大数据

宏源证券股份有限公司(以下简称宏源证券)是国内第一家上市的证券公司,也是地方性券商成功转变为全国性券商的代表之一.在市场不景气的情况下,宏源证券仍然保持了业务的平稳.较快发展,在全国的营业网点已经超过80个.宏源证券信息技术总监.信息技术中心总经理王海航在向记者介绍公司的背景时言语中流露出了一种自豪.其实,更让王海航感到骄傲的是,宏源证券在利用信息技术支撑业务发展与创新方面走出了一条属于自己的特色之路. "心病"还需"新药"医 宏源证券一直十分注重对IT的投入以及相

管理大数据需要了解面临的挑战

如今,我们每天有多少数据处理?每年将产生多少数据?这一数字变化如此之快,每一年或两年翻一番,人们只能从知情人士获得最佳的估计数量.而这些透露消息的人士,其中大部分都是在组织中数据管理领域的杰出人物,他们所估计这个数字如此之高,这几乎让人不可能想象.根据全球市场调查机构IDC公司称,在2011年,我们大约创造了1.8泽字节的数据,换而言之就是1.8万亿千兆字节的信息.他们继续说,在2012年,我们创造了2.8泽字节的信息.此外,他们说,到2020年,我们将产生40泽字节的信息. 据IBM公司估计,