2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的 2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。
本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。
在本次大会召开之前,CSDN和本次大会“大数据技术论坛”的演讲嘉宾AdMaster技术副总裁卢亿雷,做了一次简单的沟通,他表示将会在大会上分享“Hadoop在广告监测技术的实践”。点击报名!
卢亿雷,AdMaster技术副总裁
曾在联想研究院、百度基础架构部、Carbonite China工作;关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术。
对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验,对Lustre,HDFS,HBase,Map/Reduce,Storm,Spark等有很深的理解。2006年硕士毕业,一直从事云存储、云计算开发及架构工作,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有多个发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》等。曾多次被51CTO、CSDN、IT168、InfoQ、阿里技术邀请为嘉宾分享Hadoop大数据在互联网的应用。
以下为采访原文:
CSDN:你所在的公司,都曾使用过哪些大数据技术?你对这些技术满意的地方和不满意的地方分别有什么?
卢亿雷:AdMasterAdMaster是一家营销数据技术公司,通过软件即服务(SaaS)平台整合多源数据,助力品牌挖掘数据应用的商业价值。目前主要用的大数据技术有:
数据采集:Nginx,LVS;数据存储:HDFS,HBase,Elasticsearch,MySql,AeroSpike,Redis;数据分析:Map/Reduce,Storm,Spark等;虚拟化技术:OpenStack,Docker等。
对大数据技术的水平扩展非常满意,特别是数据采集的WEB集群、Hadoop存储和计算集群;还有就是大数据技术的更新速度很快,使得大数据技术可以快速满足业务的发展。
大数据技术里比较难的是学习成本会比较高,需要时刻跟上技术发展节奏才可以,还有就是需要正确选择一个最适合自己公司发展的技术。
CSDN:根据你的了解,目前类似的企业中,在数据方面,遇到的最大困难是什么?(可以从软件、硬件、开发者的角度分别谈谈)
卢亿雷:目前在数据方面,从软件方面来说技术的选型显得非常重要,而从开发者角度来说需要经常更新自己的知识,适应技术发展。另外还有就是数据分析挖掘方面技术人才非常缺乏,很多企业手中有大量数据,但有些是孤岛数据,有些是无效数据,所以怎么样快速准确的建模是目前遇到的最大困难,特别是既懂行业又懂技术的数据分析师太少了。
CSDN:在大数据领域,目前还有哪些技术是你正在观察和研究的,为什么你看好这些技术?
卢亿雷:关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术,特别是流式和实时计算,2007年左右我就接触了实时数据库这块,一直到现在,随着用户的需求越来越高,硬件成本也越来越低,坚信SSD+内存的方式将会极大加速产业的发展。
CSDN:请谈谈你在这次大会上即将分享的话题。
卢亿雷:随着广告形式的多样化,广告获得的数据也存在多种不同形式,包括有曝光、点击等被动获取的请求;微博、新闻、博客、论坛、行业网站等主动抓取的请求;问卷调查数据的补充;第三方数据的输入。
本次演讲会介绍数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)整个流程。将会介绍每天近100亿请求的性能是如何优化的,以及每天近1000亿数据的数据分析是如何实现的,还有数据从多IDC采集到同步中心机房如何实现分钟级的计算。其中会重点介绍基于SSD+Redis的优化实践。
最后将会重点介绍AdMaster累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的ADH(Advertising Distribution Hadoop)的发展及特点。其中包括内置的广告算法,应用调度器的优化,还有关于在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式的整合介绍。
CSDN:哪些听众最应该了解这些话题?你所分享的主题可以帮助听众解决哪些问题?
卢亿雷:对广告行业感兴趣的听众、对大数据落地技术实践感兴趣的听众、对Hadoop感兴趣的听众;将会给听众介绍广告行业是怎么应用大数据技术的,特别是广告业务不为人知的很多方面,还有就是Hadoop方面的一些对应用具体的优化,包括AdMaster的自有开发的ADH版本的一些特点。
CSDN诚邀您参加中国大数据有奖大调查活动,只需回答23个问题就有机会获得最高价值2700元的大奖(共10个), 速度参与进来吧!
全国大数据创新项目评选活动目前也在如火如荼进行中,详情点击这里。
2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 当下门票团购还有些许优惠, 预购从速。
免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!
CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。