王珊看大数据 - 产品和技术

王珊看大数据 发布时间:2012.05.16 09:22      来源:赛迪网     作者:赛迪网

大数据时代的到来,数据带来了爆炸式的增长,数据设备使真实世界能够被数字化处理,数据由量的积累而产生了分析处理价值。

中国人民大学信息学院教授、博士生导师王珊表示,大数据的来源主要来自互联网公司Facebook、大型企业、电信、金融等行业的简单数据类型和结构化数据。现在Facebook拥有强大的数据仓库。互联网和电子商务的发展使数据库技术面临着海量数据处理的挑战,需要高度的可扩展和高度的可伸缩。数据的处理由事务处理走向了分析处理。传感器网络、物联网上的流数据和不确定性数据成为了数据处理的来源,随着硬件技术的发展,数据处理平台由单处理器平台走向了多核、大内存、集群、云计算平台的迁移。

谈及大数据时,王珊指出,由麦肯锡研究提供的报告指出了当前大数据的特点,简称为4V(多样、快变、巨量、价值)如传感数据、交通数据更新频度高,数据价值同时间相关、数据由结构化、半结构化、还有非结构化数据比如文本、视频、点击流、和日志等。

SQL技术采用了统一的数据模型、强一致性等特点,尤其在核心的事务处理领域不能被取代,它为用户提供了简单性、以及兼容性的最佳组合,提供了一个通用共享平台。对只读的分析处理的扩展性需要进一步扩展。

Web系统的NoSQL技术主要面向非结构化数据,使用到了Key-Value处理,MapReduce处理,具有高度的可扩展和可伸缩性。

数据库与MapReduce之间借鉴的融合主要分为三种类型的解决方案,包括以GreenPlum 和AsterData为代表的并行数据库主导型、Hive 和Pig Latin 为代表的MapReduce主导型、HadoopDB和IBM解决方案为代表的并行数据库主导型和MapReduce集成性。

谈及DB和MapReduce的关系时,王珊强调,DB和MapReduce不是替代关系,DB不能固步自封,无视MapReduce的技术,DB也不能邯郸学步、丢掉深厚的积累而去实现一个基于Hadoop的DB,从DB中挖掘适合MapReduce计算模型的子系统,从核心算法层面将适合MapReduce的任务。

时间: 2024-07-28 19:18:01

王珊看大数据 - 产品和技术的相关文章

NoSQL:开发人员如何应对大数据 - 产品和技术

NoSQL:开发人员如何应 对大数据 发布时间:2012.04.16 14:15      来源:开发者     作者:开发者 目前大数据是高性能计算领域最热门的趋势.大数据处理的特点是:我们需要实时采集.分析.传递海量的信息,数据集以PB甚至ZB(1百万PB)为单位,大数据为开发人员带来了新挑战,谈到了大数据,就不能不说hadoop和NoSQL. NoSQL是当今非关系型数据库的宠儿 NoSQL是一个分布式的.面向海量数据管理的数据库系统,在互连网的海量数据管理上,有很好的表现.现如今,企业对

红帽JBoss数据网格6版本更好的管理大数据 - 产品和技术

红帽JBoss数据网格6版本更好的管理大数据 发布时间:2012.06.29 14:20      来源:赛迪网     作者:赛迪网 [赛迪网讯]近日,红帽宣布内存数据网格解决方案红帽JBoss数据网格6版本正式上市.红帽JBoss数据网格6专门设计的几个最新特性能帮助企业用户减少关联数据库的需求,让应用软件研发能更好地管理大数据. 管理大规模数据的挑战是企业用户所面临的前所未有的挑战之一.这种挑战还将继续加剧,有行业观察家指出,到2015年,全球的互联网流量将达到万万亿的上限,比2010年的

NoSQL如何处理生物医学大数据 - 产品和技术

NoSQL如何处理生物医学大数据 发布时间:2012.05.31 12:24      来源: 中关村在线      作者:涂兰敬 大数据区别于海量数据的一个重要特质就是处理大量混合结构的数据.在生物医学领域,有很多这类数据需要处理.军事医学科学院卫生勤务与医学情报研究所副研究员王玉峰在第四届中国云计算大会上分享了,他运用NoSQL处理生物医学大数据的过程.王玉峰表示,大数据整合应用涵盖健康管理数据,海量测序数据:而大数据管理.整合.分析则是大数据下IT的挑战. 王玉峰表示,生物医学是融合了医学

采用MapReduce作业如何在HBase中加载大数据 - 产品和技术

采用MapReduce作业如何在http://www.aliyun.com/zixun/aggregation/13713.html">HBase中加载大数据 发布时间:2012.04.16 14:51      来源:博客     作者:博客 一.概述 HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据.但是,这都不是最有效的方式. 这篇文档将向你描述如何在HBase中加载大

Amr Awadallah:通过来自Cloudera的Hadoop来压缩大数据 - 产品和技术

Amr Awadallah:通过来自http://www.aliyun.com/zixun/aggregation/13456.html">Cloudera的Hadoop来压缩大数据 发布时间:2012.05.25 10:31      来源:赛迪网     作者:赛迪网 [赛迪网讯]Cloudera创始人兼CTO Amr Awadallah近日访华,他表示,我们都知道如何去存储数据,但不知道如何去处理或者是回答一些关于数据的问题.我们可以通过使用Hadoop让数据存留时更长,完成数据良好

如何做好大数据产品设计架构和技术策略?

作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体系思路,让大家系统性学习和了解有关大数据的设计架构. 很多人都看过不同类型的书,也接触过很多有关大数据方面的文章,但都是很零散不成系统,对自己也没有起到多大的作用,所以作者第一时间,带大家从整体体系思路上,了解大数据产品设计架构和技术策略. 大数据产品,从系统性和体系思路上来做,主要分为五步: 针对前端不同渠道进行数据埋点,然后根据不同渠道的采集多维数据,也就是做大数据的第一步,没有全量

挑战大数据 浅析NoSQL技术

目前我们都生活在一个庞大的数据存数时代,然而大数据及其底层技术NoSQL也正成为了互联网的一个流行语.对于谷歌以及Facebook,IBM这样的全球互联网企业,NoSQL这种高扩展的非关系型数据库存数的使用往往已经超过关系型数据库.事实上,在海量数据和半结构化数据的一些问题过程中,已经诞生了一系列新型数据库产品,而这些数据库我们称之为NoSQL. 2013年4月26日-27日,由51CTO传媒集团旗下WOT(World Of Tech)品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开.

在人工智能和大数据产品的开发中,有哪些需要特别注意的点?

人工智能是近年来科技发展的重要方向,大数据的采集.挖掘.应用的技术越来越受到瞩目.在人工智能和大数据产品的开发过程中,有哪些特别需要注意的要点?人工智能领域的算法大师.华盛顿大学教授Pedro Domingos对此进行了深入思考. 在达观数据最新翻译的<智能Web算法>(第2版)中,对Pedro Domingos教授的观点进行了高度概括,提炼出12个注意点,为行业开发实践提供了重要的参考: 注意点1:你的数据未必可靠 在实际应用中,有很多各种各样的原因会导致你的数据是不可靠的.因此,当你将数据

那些拥有互联网基因的企业 为什么急需大数据产品?

大数据领域即将形成一个万亿级规模的市场. 据研究机构IDC数据显示,全球大数据与分析市场规模将由2015年的1220亿美元,在5年间成长超过50%,并在2019年底达到1870亿美元的规模. 尽管如此,这个市场目前还没有产生巨头,玩家大多数都是创业公司.例如美国的Tableau,DOMO,在中国也有几家分量相当的公司,比如海致BDP.GrowingIO等. 这些大数据的创业公司真正迎来了好时机.资本的热情从2C端全面转向2B端,企业级市场获得技术.资金.人才空前的关注.而和几年前的云计算一样,大