【BDTC先睹为快】卢亿雷:Hadoop在广告监测技术的实践

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办,CCF大数据专家委员会承办,南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开,并与技术大会共享主题报告。

本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展,NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势,OpenStack生态系统对于大数据计算需求的思考,以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用,分享实际生产系统中的技术特色和实践经验。

在本次大会召开之前,CSDN和本次大会“大数据技术论坛”的演讲嘉宾AdMaster技术副总裁卢亿雷,做了一次简单的沟通,他表示将会在大会上分享“Hadoop在广告监测技术的实践”。点击报名!

卢亿雷,AdMaster技术副总裁

曾在联想研究院、百度基础架构部、Carbonite China工作;关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术。

对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验,对Lustre,HDFS,HBase,Map/Reduce,Storm,Spark等有很深的理解。2006年硕士毕业,一直从事云存储、云计算开发及架构工作,多年Hadoop实战经验,专注于分布式存储、分布式计算、大数据分析等方向,有多个发明专利,《一种分布式文件系统及其数据访问方法》和《一种数据备份的版本管理方法及装置》等。曾多次被51CTO、CSDN、IT168、InfoQ、阿里技术邀请为嘉宾分享Hadoop大数据在互联网的应用。

以下为采访原文:

CSDN:你所在的公司,都曾使用过哪些大数据技术?你对这些技术满意的地方和不满意的地方分别有什么?

卢亿雷:AdMasterAdMaster是一家营销数据技术公司,通过软件即服务(SaaS)平台整合多源数据,助力品牌挖掘数据应用的商业价值。目前主要用的大数据技术有:

数据采集:Nginx,LVS;数据存储:HDFS,HBase,Elasticsearch,MySql,AeroSpike,Redis;数据分析:Map/Reduce,Storm,Spark等;虚拟化技术:OpenStack,Docker等。

对大数据技术的水平扩展非常满意,特别是数据采集的WEB集群、Hadoop存储和计算集群;还有就是大数据技术的更新速度很快,使得大数据技术可以快速满足业务的发展。

大数据技术里比较难的是学习成本会比较高,需要时刻跟上技术发展节奏才可以,还有就是需要正确选择一个最适合自己公司发展的技术。

CSDN:根据你的了解,目前类似的企业中,在数据方面,遇到的最大困难是什么?(可以从软件、硬件、开发者的角度分别谈谈)

卢亿雷:目前在数据方面,从软件方面来说技术的选型显得非常重要,而从开发者角度来说需要经常更新自己的知识,适应技术发展。另外还有就是数据分析挖掘方面技术人才非常缺乏,很多企业手中有大量数据,但有些是孤岛数据,有些是无效数据,所以怎么样快速准确的建模是目前遇到的最大困难,特别是既懂行业又懂技术的数据分析师太少了。

CSDN:在大数据领域,目前还有哪些技术是你正在观察和研究的,为什么你看好这些技术?

卢亿雷:关注高可靠、高可用、高扩展、高性能系统服务,关注Hadoop/HBase/Storm/Spark等离线、流式及实时分布式计算技术,特别是流式和实时计算,2007年左右我就接触了实时数据库这块,一直到现在,随着用户的需求越来越高,硬件成本也越来越低,坚信SSD+内存的方式将会极大加速产业的发展。

CSDN:请谈谈你在这次大会上即将分享的话题。

卢亿雷:随着广告形式的多样化,广告获得的数据也存在多种不同形式,包括有曝光、点击等被动获取的请求;微博、新闻、博客、论坛、行业网站等主动抓取的请求;问卷调查数据的补充;第三方数据的输入。

本次演讲会介绍数据的清洗(ETL)、存储(Data Storage)、挖掘(Data Mining)整个流程。将会介绍每天近100亿请求的性能是如何优化的,以及每天近1000亿数据的数据分析是如何实现的,还有数据从多IDC采集到同步中心机房如何实现分钟级的计算。其中会重点介绍基于SSD+Redis的优化实践。

最后将会重点介绍AdMaster累积了超过7年的实际广告主和品牌的网络营销数千个实际案例的经验,自身研发的ADH(Advertising Distribution Hadoop)的发展及特点。其中包括内置的广告算法,应用调度器的优化,还有关于在线数据(HBase),离线数据(MapReduce),实时数据(Spark),流式数据(Storm)等方式的整合介绍。

CSDN:哪些听众最应该了解这些话题?你所分享的主题可以帮助听众解决哪些问题?

卢亿雷:对广告行业感兴趣的听众、对大数据落地技术实践感兴趣的听众、对Hadoop感兴趣的听众;将会给听众介绍广告行业是怎么应用大数据技术的,特别是广告业务不为人知的很多方面,还有就是Hadoop方面的一些对应用具体的优化,包括AdMaster的自有开发的ADH版本的一些特点。

CSDN诚邀您参加中国大数据有奖大调查活动,只需回答23个问题就有机会获得最高价值2700元的大奖(共10个), 速度参与进来吧!

全国大数据创新项目评选活动目前也在如火如荼进行中,详情点击这里。

2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年,历经七届沉淀,“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议,你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G(兼项目管理委员会成员)、Yi Liu,以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势,还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 当下门票团购还有些许优惠, 预购从速。

免费订阅“CSDN大数据”微信公众号,实时了解最新的大数据进展!

CSDN大数据,专注大数据资讯、技术和经验的分享和讨论,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点,大数据技术,大数据平台,大数据实践,大数据产业资讯等服务。

时间: 2024-10-25 17:22:56

【BDTC先睹为快】卢亿雷:Hadoop在广告监测技术的实践的相关文章

Hadoop存储与计算分离实践

本文PPT来自阿里云E-MapReduce团队的余根茂于10月16日在2016年杭州云栖大会上发表的<Hadoop存储于计算分离实践>. Hadoop部署一般可大致分为传统集群部署和云上集群部署.具体而言,对于传统集群部署,存储和计算是重点,计算能力加上存储能力大致等同于这个集群的能力.传统集群往往包含很多数据"中心",并以集群混部的方式部署.在理想情况下,一个集群系统往往希望产生更少的数据迁移,并且达到更高的资源利用率.然而在现实中,当带宽逐渐不再是稀缺资源,磁盘不在是承

Spark与Hadoop两大技术趋势解析

文章讲的是Spark与Hadoop两大技术趋势解析,开源数据集如今深受开发者喜爱,比如谷歌的Images dataset数据集,YouTube-8M数据集等.通过对数据集里的数据进行分析,可以发现许多隐藏信息,比如客户喜好.未知相关性,市场趋势以及其他有用的商业信息.大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用.说到大数据分析,16年基本被Spark与Hadoop霸屏,到底是什么样的魔力让它们足以引起大数据世界的波动,未来又会如何发展呢? Apache Spark Apa

亿级 Web 系统的容错性建设实践

[本文转载于亿级 Web 系统的容错性建设实践] 三年多前,我在腾讯负责的活动运营系统,因为业务流量规模的数倍增长,系统出现了各种各样的异常,当时,作为开发的我,7*24小时地没日没夜处理告警,周末和凌晨也经常上线,疲于奔命.后来,当时的老领导对我说:你不能总扮演一个"救火队长"的角色, 要尝试从系统整体层面思考产生问题的根本原因,然后推进解决. 我幡然醒悟,"火"是永远救不完的,让系统能够自动"灭火",才是解决问题的正确方向.简而言之,系统的异

时代亿信EETrust认证墙技术白皮书

一.用户面临的风险目前,大多数应用系统主要采用传统的口令认证方式进行身份认证.这种认证方式面临 众多攻击和泄露风险,比如:网络窃听(Sniffer).认证信息截取/重放(Record/Replay).病毒.黑客等,传统的口令认证方式已经无法满足大规模网络应用的安全认证需求.498)this.w idth=498;' onmousewheel = 'javascript:return big(this)' height=203 alt="" src="/files/upload

【BDTC先睹为快】陈继东:解密蚂蚁金服基于大数据的安全和风控体系

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕.大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立"大数据基础设施"."大数据生态系统"."大数据技术"."大数据应用"."大

【BDTC先睹为快】邹永强:腾讯Mariana深度学习平台实战细节大曝光

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕.大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立"大数据基础设施"."大数据生态系统"."大数据技术"."大数据应用"."大

【BDTC先睹为快】廖晓格:让大数据更实时和可视化

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕.大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立"大数据基础设施"."大数据生态系统"."大数据技术"."大数据应用"."大

【BDTC先睹为快】介文清:NoSQL解决12306遇到的新问题

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕.大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立"大数据基础设施"."大数据生态系统"."大数据技术"."大数据应用"."大

【BDTC先睹为快】胡炜:大数据存储时间换空间的交易

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办的  2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕.大会为期三天,以推进行业应用中的大数据技术发展为主旨,拟设立"大数据基础设施"."大数据生态系统"."大数据技术"."大数据应用"."大