2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的 2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。
本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。
网易NTSE/TNT引擎负责人胡炜将在“大数据技术”分论坛,带来“网易数据库压缩技术”的演讲。对数据库中的数据进行高效地压缩存储是应对数据量快速增长的重要手段。目前业界的主流数据库产品都提供压缩功能,然而在实际效果上仍然有提升的空间。网易在数据库研发领域已有多年的实践经验,此次分享将结合自研的数据存储引擎,介绍网易在数据库中的数据压缩技术。
大会召开之前,CSDN和胡炜进行了一次简单的沟通。胡炜认为数据压缩技术显然能降低数据存储的压力,是一个时间换空间的交易,通过何种方式在两者中进行取舍,以及如何提高便高效的压缩管理是需要仔细斟酌的问题。
胡炜,网易NTSE/TNT引擎负责人
2012年加入网易,网易NTSE/TNT引擎负责人,目前专注于网易自研数据库引擎以及分布式数据库中间件的研发,热衷于各种数据库技术。
CSDN:数据压缩技术在大数据技术中占据什么样的位置?数据压缩在实践中有哪些难点?
胡炜:大数据时代对数据存储这门古老的计算机技术提出了新的挑战,动辄PT,EB的数据量需要大量的存储设备提供支持。虽然在存储硬件飞速发展的今天存储的成本已大幅下降,但是在一个系统中,内外存仍然是一个数据库系统中占据非常大比重的开销之一。数据压缩技术显然能降低数据存储的压力。数据库的压缩技术其实就是一个时间换空间的交易,通过何种方式在两者中进行取舍,以及如何提高便高效的压缩管理是需要仔细斟酌的问题。
CSDN:你所在的公司,都曾使用过哪些大数据技术?你对这些技术满意的地方和不满意的地方分别有什么?
胡炜:HBase、Hive、NoSQL等等,扩展性非常好,但是在易用性以及在某些通用场景下的性能还有能提高的地方。
CSDN:根据你的了解,目前类似的企业中,在数据方面,遇到的最大困难是什么?
胡炜:数据是企业最为重要的财富,也是最根本的保障,因此数据应该基于稳定、高效成熟的技术搭建一整套数据平台方案。整合以及管理所有的数据,不同部门、不同应用各自为战的时代对管理以及运维带来的极大的挑战。在数据存储、管理工具的选择上,应当积极拥抱开源社区,与其他开发者共同创造一条可持续发展的路子。
CSDN:在大数据领域,目前还有哪些技术是你正在观察和研究的,为什么你看好这些技术?
胡炜:Phoenix是我非常感兴趣的,它为HBase提供了类似于关系数据库的使用方式,支持JDBC,并于近期提供了如多表连接、二级索引、等等功能。关系模式对于一个数据库来说是非常友好的一个方式,Phoenix让HBase兼有Nosql扩展性又有RDBMS的易用性,看好其会有较好的发展。
CSDN:请谈谈你在这次大会上即将分享的话题。
胡炜:数据压缩是在数据库领域大部分产品的做法是使用成熟的压缩技术来对数据文件进行分片分块的压缩。从结果来看是能获得一个尚且能够令人接受的压缩效果,但是在灵活性以及压缩比例上依然能有提高的空间,网易在自研存储引擎的过程中也是希望能在现有产品的压缩效果上能更进一步。在数据压缩方面,我们的工程师们结合了列存数据库、传统行级数据库的压缩技术,并在他们的基础上做了创新,并且取得不错的效果。把我们在方案设计选型过程中思考过的问题,以及之后遇到的挑战与大家分享,希望能对听众有所启发与帮助。
CSDN:哪些听众最应该了解这些话题?你所分享的主题可以帮助听众解决哪些问题?
胡炜:从事数据存储系统开发的工程师可能会对我的分享会比较感兴趣,希望此次分享能提为这些工程师在今后研发数据存储系统时如何去做数据压缩提供一些新的思路。
全国大数据创新项目评选活动目前正在如火如荼进行中,详情点击这里。
2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 当下门票团购还有些许优惠, 预购从速。
免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!
CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。