王珊看大数据 发布时间:2012.05.16 09:22 来源:赛迪网 作者:赛迪网
大数据时代的到来,数据带来了爆炸式的增长,数据设备使真实世界能够被数字化处理,数据由量的积累而产生了分析处理价值。
中国人民大学信息学院教授、博士生导师王珊表示,大数据的来源主要来自互联网公司Facebook、大型企业、电信、金融等行业的简单数据类型和结构化数据。现在Facebook拥有强大的数据仓库。互联网和电子商务的发展使数据库技术面临着海量数据处理的挑战,需要高度的可扩展和高度的可伸缩。数据的处理由事务处理走向了分析处理。传感器网络、物联网上的流数据和不确定性数据成为了数据处理的来源,随着硬件技术的发展,数据处理平台由单处理器平台走向了多核、大内存、集群、云计算平台的迁移。
谈及大数据时,王珊指出,由麦肯锡研究提供的报告指出了当前大数据的特点,简称为4V(多样、快变、巨量、价值)如传感数据、交通数据更新频度高,数据价值同时间相关、数据由结构化、半结构化、还有非结构化数据比如文本、视频、点击流、和日志等。
SQL技术采用了统一的数据模型、强一致性等特点,尤其在核心的事务处理领域不能被取代,它为用户提供了简单性、以及兼容性的最佳组合,提供了一个通用共享平台。对只读的分析处理的扩展性需要进一步扩展。
Web系统的NoSQL技术主要面向非结构化数据,使用到了Key-Value处理,MapReduce处理,具有高度的可扩展和可伸缩性。
数据库与MapReduce之间借鉴的融合主要分为三种类型的解决方案,包括以GreenPlum 和AsterData为代表的并行数据库主导型、Hive 和Pig Latin 为代表的MapReduce主导型、HadoopDB和IBM解决方案为代表的并行数据库主导型和MapReduce集成性。
谈及DB和MapReduce的关系时,王珊强调,DB和MapReduce不是替代关系,DB不能固步自封,无视MapReduce的技术,DB也不能邯郸学步、丢掉深厚的积累而去实现一个基于Hadoop的DB,从DB中挖掘适合MapReduce计算模型的子系统,从核心算法层面将适合MapReduce的任务。