HIVE在腾讯分布式数据仓库实践分享

HIVE在腾讯分布式数据仓库实践分享

赵伟 2012-12-1

一、腾讯分布式数据仓库介绍

二、HIVE在TDW中的实践

三、TDW HIVE接下来的工作

temp_12120611487766.pdf

时间: 2024-10-06 23:34:44

HIVE在腾讯分布式数据仓库实践分享的相关文章

腾讯赵伟:Hive在腾讯分布式数据仓库的实践

腾讯高级工程师赵伟2009年毕业于哈尔滨工业大学,从学生时代起,他就对技术比较感兴趣,钻研过很多技术,包括反向工程/病毒分析 .linux/FreeBSD.C++等,偶尔还能通过学校的平台用这些技术赚点零花钱.这些经历都促进了赵伟对计算机技术的理解,也锻炼了他的动手能力. 赵伟在毕业后就加入了腾讯数据平台部,进入腾讯后,他参与进了当时正在规划中的腾讯分布式数据仓库(TDW)项目,通过与TDW的一起成长,他越发深刻的感觉到通过前沿的计算机技术可以使人们的生活更加便利,可以使企业的运营成本不断降低,

阿里数据仓库实践分享

摘要 数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建.为需要业务智能的企业,提供指导业务流程改进.监视时间.成本.质量以及控制.   现场分享视频地址:https://v.qq.com/iframe/player.html?vid=v0547ee0whs&width=670&height=376.875&auto=0 基础 搭建数据仓库主要需要建模的能力,还要沉淀一些维度表.除此之外还要不断地挖掘数据,

分布式数据仓库实践指南:第一章-数据仓库体系结构

说明:本章是数据仓库体系结构的专题讨论区,关于数据仓库的体系结构问题,统一放到此处进行答复.

腾讯TDW项目:开源的分布式数据仓库

本期,我们采访的是腾讯TDW开源项目负责人.腾讯高级工程师赵伟. 赵伟,腾讯数据平台部高级工程师,腾讯大数据平台分布式数据仓库(TDW)的技术负责人,开源软件爱好者,是腾讯内部Hive.Pig.PostgreSQL.ZFS等开源技术的引入和推广者.目前主要负责TDW平台的稳定性.性能.易用性建设,同时负责TDW对外开源工作. TDW,腾讯分布式数据仓库项目,在Hadoop的基础上开发的腾讯内部最大的离线数据处理平台.TDW支持Oracle功能兼容的SQL语法,支持PB及的存储和TB及的计算等.

BDTC PPT集萃(四):腾讯、阿里等分享的大数据应用

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日, 第八届中国大数据技术盛会 将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各

数据仓库专题(4)-分布式数据仓库事实表设计思考---讨论精华

一.前言 陆续有各位兄弟参加大讨论,提出了各种问题,关于分布式环境下,维表和事实表设计,进行了比较深入的探讨,在此汇集整理,分享给大家.希望能有更多人参与尽力啊,共同探索分布式数据仓库数据模型的设计. 二.纪要 [活跃]北京-RTB-胖哥(1106110976) 10:21:36  分布式模式下事实表设计思考: 做大做强事实表,做小做弱维表: [冒泡]杭州-电子病历<ruanjizhou@qq.com> 10:23:31  能举例子说明吗? 您这句话,我似懂非懂,但是确实在临床上又有非常多的问

淘宝分布式数据处理实践

近日,由中科院计算所主办的"Hadoop 中国2010云计算大会"在北京召开,今年已是第四届举办.包括百度.淘宝和中移动在内的诸多企业都展示了基于Hadoop的应用.在本次大会上淘宝数据平台及产品部基础研发组周敏介绍了淘宝对Hadoop的功能扩展和改造,分布式数据仓库的构思,并着重介绍了对Hive实践以及改造.以下是周敏在本次大会的ppt节选. 淘宝数据图 淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,

CSDN云计算俱乐部:Hadoop技术开发与应用实践分享

大数据的火爆已不容置疑,在本次Hadoop技术开发与应用实践分享会上,加座.站票已经完全解决不了问题,工作人员不得不临时设立两个会场,满足更多参会人员与讲师面对面沟通的机会. 本次CSDN云计算俱乐部邀请到了Hadoop大数据红象云腾公司创始人童小军.上海宝信高级工程师汪振平及智联招聘高级工程师李尤,对Hadoop与大数据上的实践做出了深度分享. 童小军:Hadoop原理.适用场景及核心思想 童小军,EasyHadop 社区创始人.原暴风影音平台研发经理:国内首位获得美国Cloudera公司Ap

数据产品设计专题(5)- 分布式数据仓库技术架构

一.分布式数据仓库技术架构 二.核心内容解读  (1)分布式数据仓库存储技术:hive+hdfs:  (2)事实计算平台技术框架:spark:  (3)数据挖掘算法技术框架:mllib + sparkR