基于云的应用程序处理大数据时,被处理的大数据不仅具有高容量、高速度、多类型的3V特性,还必须辅以第四个V:准确性。尤其在处理属于他人的数据的时候。
在波士顿大数据创新会议上的一个对话会上,IBM云数据服务事业部产品开发副总裁迈克·奥罗克(Mike O’Rourke)表示,所有四个特性,包括在论证中的数据所有权的问题,在推动业务敏捷性上都各自扮演着一个重要角色。大部分现代云应用处理的数据都来自外部资源,在使用前必须清理。
“开发团队必须敏捷,这样他们才能迅速反应,提供应用程序的快速更新。”他说。“这意味着,在处理大数据时,你必须有不同的思考方式。”虽然奥罗克(O’Rourke)并没有过于发挥到引用阿甘的“生活就像一盒巧克力”的格言,但他明确表示,当应用程序收集、处理和存储大数据时,你永远不知道会得到什么。因此,基于云的应用程序的设计必须足够灵活,以保证无论遇到何种数据,运行不间断。
奥罗克解释4个V的概念。他说,首先,高容量是最主要的。因为云和移动应用需要处理交互的数据量,不论是事务型数据还是流数据,正从TB级到PB级飞涨。
多类型是说,应用程序必须能处理结构化和非结构化的多种形式的数据。视频数据是非结构化的,但应用程序必须了解其内容。奥罗克解释,“如果你是一个广播公司,你不希望在有许多人丧生的严重车祸的影片后,广告出现说,买一辆雪佛兰车吧。这两者放在一起违和。”
高速度,或者说动态数据,正变得越来越重要,尤其是在数据容量突飞猛进的现实情况下。奥罗克说,“物联网通过传感器收集的和社会化的海量数据,正向我们涌来,你的应用程序必须能够提供实时决策。” 收集数据供以后分析或处理的概念已经过时了,他补充道。
准确性是指在处理的数据的可靠性各异的情况下(这被称为数据的不确定性),应用程序需表现出灵活性。奥罗克举例,电池没电或突然失去通讯联系时,健身设备和手机传来的数据可能突然中断。“你的应用程序能处理这样的突发情况吗?”
传统上,无论是零售交易、工厂车间的工艺控制,或是保险的保费和效益跟踪的案例,企业都是自己收集数据、自己处理。但云时代世界不一样了。奥罗克说,“当构建应用程序或做应用分析时,可能遇到的情况是,不论你在哪间公司,大部分需要处理的数据都不是公司自己拥有的。
他举了一个批大学工程专业学生夏天在IBM实习的例子。这些学生为纽约市搭建了一个应用程序,用来精确定位不安全道路的位置。学生们利用的数据包括机动车交通事故、天气、日出、日落、空气的湿度、道路是否湿滑、道路指示牌和道路标志的地理空间信息等。所有的数据都是公共数据,来自公共领域。
在几个星期内,这组学生创建了一个应用程序,标识了需要维修或重新设计具体道路的地点,司机可能会受益于更早展示警告标志的地方,和交通信号需要改变的十字路口。
“因为大部分需要处理的数据不是你自己拥有的,所以我可以提供给开发人员的最好建议是:在检视和分析数据之前,必须有必要对数据进行清理、标记和储存。” 奥罗克总结说。
本文作者:云岚
来源:51CTO