文章讲的是孟小峰:大数据管理系统的发展与机遇,2016年5月12日-14日,第七届中国数据库技术大会(DTCC 2016)在北京国际会议中心拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴,在为期三天的会议中,大会将围绕MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术展开深入探讨,并邀请一大批国内顶尖的技术专家来进行分享,以满足广大从业人士和行业用户的迫切需要。
本届是大会创办以来,规模最大,参会人次、参展合作伙伴最多的一次盛会,云集了来自五湖四海的5000余名IT精英,相聚在这里,共话数据库技术发展潮流,共赴大数据浪潮之巅。今天,来到了大会的第二天,主题为“聚焦大数据+引领行业变革”,中国人民大学信息学院教授孟小峰进行了题为《大数据管理系统的发展与机遇》主题演讲。
大数据的提出
计算机未来15年内写作90%的新闻,未来5年获普利策奖。--克里斯蒂安·哈蒙德
孟老师举例表示,在已故的Jim Gray《事务处理》一书中提到:6000年以前,苏美尔人就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。19世纪后期,打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时的社会结构的复杂程度和生产力水平密切相关的。
数据的来源来自两个“社会”,物理社会和网络社会,从现实社会发展到虚拟社会,互联网、云计算、物联网的发展让数据量有了质的提高。同时,数据产生的方式也在发生转变。具体分三类:
运营式系统--数据源是被动产生:数据规范,有秩序,强调数据的一致;
互联网系统--数据源是主动产生:数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性;
感知式系统--数据源是自动产生:数据呈现多源异构、分布广泛、动态演化等。
孟老师总结表示,大数据的理解可以总结为更细(数据记录的“粒度”更加细致,由粗粒度到细粒度的转变、由企业信息到个人信息转变)、更广(数据记录的“广度”更为宽泛,多源异构的数据源普遍存在、数据的关联、交叉、融合更为迫切)、更密(数据记录的“密度”连续不断,由静态描述到动态描述的转变、由简单分析到复杂分析的转变),传统的信息系统是先有模式后有数据。
大数据的管理
由模式到数据,数据库能帮助普通用户组织、存储、查询数据,并提供已知问题的简单分析;由数据到知识,数据湖能帮助普通用户收集数据、发现关联关系,并提供未知问题的复杂分析。
据孟老师介绍,大数据管理基本问题包括大数据管理理论和方法 大数据集成:如大数据分析、大数据计算、大数据可视化、大数据隐私管理;
大数据管理系统和技术包括如,大数据编程语言、大数据编译技术、大数据生态系统(分布、众包、实时等);
面向新型存储器件的大数据管理包括如,新型体系结构、高效存储系统(齿轮式存储I/O=》火箭式存储)、高效节能;
大数据应用“三要素”
“大数据”关联和融合凝聚成“大知识”,促成开发“大应用”
针对大数据隐私管理的问题上,孟老师表示:“大数据隐私管理的总体目标是基于数据管理理念和方法开展相关研究,具体包括如下三点:为大数据的应用提供技术支撑、为那些悬而未决的隐私挑战寻找方法、给公开数据的政府、企业和个人一个定心丸,保证国家安全底线。”
大数据的生态系统
大数据管理系统分类
数据处理模式包括:批处理模式、流处理模式、混合处理模式。
关于大数据的四大思考 今天做的还远远不够
思考一:大数据的局限性,过去几十年人类可以量化的数据增长确实惊人,但人类无法量化的“数据”更为庞大,全世界的数据加起来也无法让机器理解爱、悲伤或恐惧。
思考二:新的产业尚未出现
思考三:如何不被大数据误导
思考四:AI?VR?AR?DB?
写在最后,孟老师引用了陈寅恪先生的话作为总结:“ 一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”
对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。
作者: 陶然
来源:IT168
原文链接:孟小峰:大数据管理系统的发展与机遇