如数据规模如何支持庞大的数据集?

随着云计算和物联网的发展,数据产生的类型也发生了很多变化,由过去的结构化的数据在向半结构化发展,大数据成为对传统IT系统的另一个挑战。云计算和大数据有一定的重合度,但各自有不同的侧重,并分别给传统的IT架构提出了不同的挑战:如数据规模如何支持庞大的数据集?在海量非结构化数据的环境下,如何有效的进行数据管理?

  惠普于今年6月在美国拉斯维加斯的HP Discover 2011上发布其最新的融合存储(HP Converged Storage)战略,同时推出一系列存储新品以及升级,覆盖3PAR、LeftHand和Ibrix,还有升级的中端P6000 EVA系统、X5000 G2网络存储系统等等,其中X9000 Ibrix网络存储系统也是融合存储的一个重要部分。

  大数据与云存储

  X9000系列是惠普融合基础设施的核心文件存储基础设施层。是一系列横向扩展NAS设备,符合惠普自动、简洁、经济及面向未来的存储环境的愿景,并完全针对当前“大数据”以及“云存储”等方面的需求而推出。

▲惠普存储产品部的产品经理王伟先生在IT168视频访谈演播室介绍X9000系列

  惠普存储产品部的产品经理王伟先生谈到:“从大数据需求来看,可分为两类,一类是大量的小文件存储,例如我们每次出去旅游照的照片,尽管单个文件只有两三兆,三四兆,但数量极有可能非常庞大。另一方面则是大文件的存储需求,也就是说,单个文件的尺寸就达到了非常大的规模,比较有代表性的就是视频监控流,一次监测的时间往往是需要从早监测到晚,一个视频流文件的大小就极为惊人,这种大文件的存放问题也是我们要面对的问题。”

▲王伟总结了当前大数据及云存储应用较为普遍的数据类型,都可以概括为两类需求,一类是海量小文件存储,一类是大文件存储

  此外,王伟先生认为,出于对核心业务向云迁移的风险考虑,目前用户在考虑云的时候,首先关注的是边缘非核心业务,实际上用户的很多边缘非核心业务都涉及到文件存储的问题,大文件存储以及海量小文件存储已经成为整个云建设里面的非常严峻的问题,实际上可以放在一起进行考虑。

  大数据和云给传统存储带来的挑战被王伟概括为两点:大数据和云带来的首先是成本问题,如何能用一个比较合理的低成本的方式建设云,第二是对于整个业务需求的满足程度,包括性能是否能满足,以及在这种模式下可靠性、可管理性是否能够满足需求。

(责任编辑:蒙遗善)

时间: 2024-07-30 05:36:06

如数据规模如何支持庞大的数据集?的相关文章

如何在Kaggle中高效搜索数据集?快吃下这枚安利

对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索数据集,具体怎么操作?雷锋网(公众号:雷锋网) AI科技评论将文章编译整理如下: 目前,在Kaggle上有成千上万的数据集,而且每天都会有新的增加.虽说Kaggle是一个非常棒的资源池,但是想在这么多的数据集里精准地找到与自己感兴趣的主题相关的,有时会有点棘手.在过去的几个月里,我学到

构建支持 Ajax 的自动完成和级联式下拉控件

本文介绍如何构建可在业务线应用程序中使用的 Asynchronous JavaScript + XML (Ajax) 控件.这些基于 JSP TagLib 的可配置控件利用 JavaScript Serialized Object Notation (JSON).JavaScript 和 CSS.它们是标准的 JSP Taglib 控件,本文将展示可多么轻松地将其拖放到任意应用程序之中,从而提供更加直观.更具响应性的用户界面. Ajax 和 JSON 是支持新一代 Web 站点的两种关键技术.业

数据规模恼同程,混合云飘来除杂症

10月13日2016杭州云栖大会拉开帷幕,电商专场的同程旅游首席架构师王晓波带来了"同程带您云端翱翔"的重要演讲.本次分享对同程旅游进行了简要介绍,接着分享了同程旅游的数据驱动历程,最后着重讲述了在云端时代的同程旅游,包括公有云和私有云的混合打通等.精彩不容错过--   以下内容根据演讲PPT及现场分享整理:   在线旅游更多的考虑怎样让用户满意.本文通过三个方面和大家分享同程旅游如何用数据驱动实现业务创新和业务快速发展的,首先对同程旅游进行了简要介绍,接着分享了同程旅游的数据驱动历程

SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定分组变量,用于控制SET,MERGE,UPDATE或MODIFY语句. BY<DESCENDING>variable-1 <...<DESCENDING>variable-n><NOTSORTED><GROUPFORMAT>; 其中: Variabl

艾伟:用MSChart展示多维数据集

        之前谈到过用MSChart可以比较直观方便的实现对多维数据集的展示,做得比较粗略.这次详细介绍下我的经验,并提供主要的试验代码段.        有必要强调一下,对多维数据集的展示,层次性是非常必要的.多维数据集本身就是带有层次结构的,如何直观而又不产生歧义的正确展示出其原本的数据集合结构,成为众多据仓库展示工具软件开发商关心的问题.在选型方面,目前市场上已经有比较多的选择,相当多的第三方图形控件就已经直接支持多维数据集的展示,即直接把CellSet结果赋给该控件的DataSou

Windows Azure如何帮助企业利用云的速度、规模和经济效益

编辑人员注释:本文章由 Windows Azure 产品市场营销部门的 Scott Woodgate 和 Karri Alexion-Tiernan 撰写 在过去几个月,您可能听到我们谈论"融合的力量",我们分享了内部部署 Windows Server 和云中的 Windows Azure 如何帮助企业利用云的速度.规模和经济效益.现在,我们要通过为开发人员和 IT 专业人员进行大量的新投资,扩展这一力量. 对于我们的开发人员,我们知道,开发和测试方案往往是组织进入到云的首要阶段.所以

用MSChart展示多维数据集

之前谈到过用MSChart可以比较直观方便的实现对多维数据集的展示,做得比较粗略.这次详细介绍下我的经验,并提供主要的试验代码段. 有必要强调一下,对多维数据集的展示,层次性是非常必要的.多维数据集本身就是带有层次结构的,如何直观而又不产生歧义的正确展示出其原本的数据集合结构,成为众多据仓库展示工具软件开发商关心的问题.在选型方面,目前市场上已经有比较多的选择,相当多的第三方图形控件就已经直接支持多维数据集的展示,即直接把CellSet结果赋给该控件的DataSource即可.但是这些目前毕竟是

庞大汽贸IPO隐藏财务风险

河北庞大汽贸集团股份有限公司(以下简称"庞大汽贸")2月14日成功过会,成为国内汽车经销商中的首单A股IPO. 庞大汽贸前身是2003年成立的唐山冀东机电设备有限公司,2007年12月21日经公司创立大会批准,整体变更成立.从创立之初,庞大汽贸就一直从事汽车经销及维修养护业务.经过多年发展,公司已跻身行业前列,成为斯巴鲁在国内的三家总经销商之一.在报告期(2007年度.2008年度.2009年度及2010年1-6月)内,公司的净利润分别为4.20亿元.6.02亿元.10.11亿元和6.

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka

在今天的文章中,我们将着重探讨如何利用SMACK(即Spark.Mesos.Akka.Cassandra以及Kafka)堆栈构建可扩展数据处理平台.虽然这套堆栈仅由数个简单部分组成,但其能够实现大量不同系统设计.除了纯粹的批量或者流处理机制之外,我们亦可借此实现复杂的Lambda以及Kappa架构. 在本文开始阐述之前,让我们首先立足于已有生产项目经验从设计与示例入手进行说明. 综述 • Spark - 一套高速通用型引擎,用于实现分布式大规模数据处理任务. • Mesos - 集群资源管理系统