基于云应用处理大数据的 4V 特征

基于云的应用程序处理大数据时,被处理的大数据不仅具有高容量、高速度、多类型的3V特性,还必须辅以第四个V:准确性。尤其在处理属于他人的数据的时候。

在波士顿大数据创新会议上的一个对话会上,IBM云数据服务事业部产品开发副总裁迈克·奥罗克(Mike O’Rourke)表示,所有四个特性,包括在论证中的数据所有权的问题,在推动业务敏捷性上都各自扮演着一个重要角色。大部分现代云应用处理的数据都来自外部资源,在使用前必须清理。

“开发团队必须敏捷,这样他们才能迅速反应,提供应用程序的快速更新。”他说。“这意味着,在处理大数据时,你必须有不同的思考方式。”虽然奥罗克(O’Rourke)并没有过于发挥到引用阿甘的“生活就像一盒巧克力”的格言,但他明确表示,当应用程序收集、处理和存储大数据时,你永远不知道会得到什么。因此,基于云的应用程序的设计必须足够灵活,以保证无论遇到何种数据,运行不间断。

奥罗克解释4个V的概念。他说,首先,高容量是最主要的。因为云和移动应用需要处理交互的数据量,不论是事务型数据还是流数据,正从TB级到PB级飞涨。

多类型是说,应用程序必须能处理结构化和非结构化的多种形式的数据。视频数据是非结构化的,但应用程序必须了解其内容。奥罗克解释,“如果你是一个广播公司,你不希望在有许多人丧生的严重车祸的影片后,广告出现说,买一辆雪佛兰车吧。这两者放在一起违和。”

高速度,或者说动态数据,正变得越来越重要,尤其是在数据容量突飞猛进的现实情况下。奥罗克说,“物联网通过传感器收集的和社会化的海量数据,正向我们涌来,你的应用程序必须能够提供实时决策。” 收集数据供以后分析或处理的概念已经过时了,他补充道。

准确性是指在处理的数据的可靠性各异的情况下(这被称为数据的不确定性),应用程序需表现出灵活性。奥罗克举例,电池没电或突然失去通讯联系时,健身设备和手机传来的数据可能突然中断。“你的应用程序能处理这样的突发情况吗?”

传统上,无论是零售交易、工厂车间的工艺控制,或是保险的保费和效益跟踪的案例,企业都是自己收集数据、自己处理。但云时代世界不一样了。奥罗克说,“当构建应用程序或做应用分析时,可能遇到的情况是,不论你在哪间公司,大部分需要处理的数据都不是公司自己拥有的。

他举了一个批大学工程专业学生夏天在IBM实习的例子。这些学生为纽约市搭建了一个应用程序,用来精确定位不安全道路的位置。学生们利用的数据包括机动车交通事故、天气、日出、日落、空气的湿度、道路是否湿滑、道路指示牌和道路标志的地理空间信息等。所有的数据都是公共数据,来自公共领域。

在几个星期内,这组学生创建了一个应用程序,标识了需要维修或重新设计具体道路的地点,司机可能会受益于更早展示警告标志的地方,和交通信号需要改变的十字路口。

“因为大部分需要处理的数据不是你自己拥有的,所以我可以提供给开发人员的最好建议是:在检视和分析数据之前,必须有必要对数据进行清理、标记和储存。” 奥罗克总结说。

本文作者:云岚

来源:51CTO

时间: 2024-10-01 01:11:09

基于云应用处理大数据的 4V 特征的相关文章

电视台成阿里云下一个大数据重塑目标

本文讲的是电视台成阿里云下一个大数据重塑目标[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台.该平台可以在一周内,帮助传统电视台变成多屏网络电视台,支持电脑网站.手机APP.电视机全终端流畅播放,且可以实现大数据的收集整理和运营.今年内,全国两百家电视台将接入该云计算平台. 阿里云是中国唯一可以将5000台计算机合成一台"超级计算机"的云计算平台,将为全国广播电视媒体提供超级计算.

如何在云上实现大数据项目

云计算和大数据目前都是热门话题,如何把两者结合起来即在云上实现大数据项目,这是一个新的实践领域.资深数据专家David Gillman根据自己的经验,列举了云上大数据方案需要考虑的基本要素,包括对数据构建实时索引.自由模式搜索与分析.监视数据并提供实时警告等,帮助用户更好地评估和选择解决方案. 在谈到如何实现云上大数据项目时,David强调了三个实时要素,即实时索引.实时数据和实时监控.具体来说,实时索引指的是"对所有机器数据创建通用的实时索引": 这是大多数人所认为的大数据的核心;它

李彦宏为何看好企业软件?因为云服务和大数据

在前不久的百度联盟峰会上,李彦宏提出两个趋势,一个是对中国企业级软件市场的看好,另一个则是大数据与智能硬件.李彦宏说这两个领域是BAT不会涉足的,不过笔者认为这只是烟雾弹.鉴于百度拥有大量的企业客户资源.基于百度云的技术基础以及百度进军O2O和传统行业的战略,几乎可以肯定企业级软件将是百度接下来的重攻领域. 企业级软件市场规模巨大 "企业级软件"是指支撑企业信息化需求的软件总称.比较典型的有企业办公软件.企业应用系统(CRM.ERP.BSS.BOSS).企业杀毒及防火墙.VPN客户端.

浅析基于SQL Server PDW大数据解决方案

文章讲的是浅析基于SQL Server PDW大数据解决方案,随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,

基于NoSQL数据库的大数据存储技术的研究与应用

基于NoSQL数据库的大数据存储技术的研究与应用 孙中廷 实际工程中采集和处理的数据量特别大,这对传统数据库技术提出巨大挑战.针对传统关系型数据库存储速度慢.对硬件要求高的缺点,提出一种以NoSQL数据库为基础的大数据处理方法,打破了传统数据库的关系模型,数据以一种自由的方式存储,而不依赖固定的表结构.该方法主要是将经验模态分解并与NoSQL数据库技术相结合,应用于大型结构件的变形监测中,构建出一个基于NoSQL数据库系统的大型结构件变形监测系统.仿真结果表明,该方法可以实现大型结构件变形监测数

基于云架构的油气藏数据智能管理技术

基于云架构的油气藏数据智能管理技术 王娟 姚卫华 石玉江 陈芳 杨倬 油气藏数据是油气藏研究及开发的重要基础,由于数据源的异构性和集成机制的不完善,造成大量数据的分离,严重影响了油气藏研究及开发决策等的高效运行.为此,结合中国石油长庆油田公司数字化油气藏研究系统建设目标,通过分析油气藏各异构数据集之间的依赖关系以及业务需求和数据中心之间的相关度,提出了一种云架构环境中基于Wrapper/Mediator策略无缝整合异构数据和基于MapReduce并行框架的大规模数据处理技术:①应用Wrapper

信息化浪潮下云服务和大数据蓄势待发

政府扶持,中国信息化进程加速 经历改革开放近40年的高速增长,中国经济进入了平稳发展的"新常态",经济转型面临压力,推进企业信息化改革,提升生产效率成为经济发展的新方向. 2016年是"十三五规划"的开局之年,信息化再次成为了"十三五规划"里的发展重点.政府连续出台<国家信息化发展战略纲要>.<"十三五"国家信息化规划> 等政策推动通信基础设施建设和信息产业发展,加快中国信息化进程.根据CNNIC发布的

基于NoSQL数据库的大数据查询技术的研究与应用

基于NoSQL数据库的大数据查询技术的研究与应用 朱建生  汪健雄  张军锋 基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写.面向文档和面向分布式计算的3种类型.对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求,选用NoSQL数据库中的面向分布式计算的Cassandra数据库.基于Cassandra数据库,提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制乘车信息的查询策略和查

开发区产业云与云产业、大数据产业发展

开发区产业云与云产业.大数据产业发展 中科院云计算中心 2014年9月24日 --云计算与大数据 --开发区与云计算.大数据 --云与大数据产业发展 --中科院云计算中心简介 开发区产业云与云产业.大数据产业发展