hive ETL之广告行业-用户行为归类sql

-- case2 --

--========== click_log ==========--
/*
11    ad_101    2014-05-01 06:01:12.334+01
22    ad_102    2014-05-01 07:28:12.342+01
33    ad_103    2014-05-01 07:50:12.33+01
11    ad_104    2014-05-01 09:27:12.33+01
22    ad_103    2014-05-01 09:03:12.324+01
33    ad_102    2014-05-02 19:10:12.343+01
11    ad_101    2014-05-02 09:07:12.344+01
35    ad_105    2014-05-03 11:07:12.339+01
22    ad_104    2014-05-03 12:59:12.743+01
77    ad_103    2014-05-03 18:04:12.355+01
99    ad_102    2014-05-04 00:36:39.713+01
33    ad_101    2014-05-04 19:10:12.343+01
11    ad_101    2014-05-05 09:07:12.344+01
35    ad_102    2014-05-05 11:07:12.339+01
22    ad_103    2014-05-05 12:59:12.743+01
77    ad_104    2014-05-05 18:04:12.355+01
99    ad_105    2014-05-05 20:36:39.713+01
*/
CREATE EXTERNAL TABLE click_log (
    cookie_id  STRING
  , ad_id      STRING
  , ts         STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/tmp/db_case2/click_log';

select cookie_id, collect_set(ad_id) as orders
from click_log
--where ts > '2014-05-02'
group by cookie_id;

select cookie_id, group_concat(ad_id, '|') as orders
from click_log
--where ts > '2014-05-02'
group by cookie_id;

--========== ad_list ==========--
/*
ad_101    http://abcn.net/    catalog8|catalog1
ad_102    http://www.abcn.net/    catalog6|catalog3
ad_103    http://fxlive.de/    catalog7
ad_104    http://fxlive.fr/    catalog5|catalog1|catalog4|catalog9
ad_105    http://fxlive.eu/    
*/
CREATE EXTERNAL TABLE ad_list (
    ad_id    STRING
  , url      STRING
  , catalogs array<STRING>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
COLLECTION ITEMS TERMINATED BY '|'
LOCATION '/tmp/db_case2/ad_list';

CREATE EXTERNAL TABLE ad_list_string (
   ad_id    STRING
 , url      STRING
 , catalogs STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/tmp/db_case2/ad_list';

select click.cookie_id, click.ad_id, click.amount, ad_list_string.catalogs as orders
from (
  select cookie_id, ad_id, count(1) as amount from click_log group by cookie_id, ad_id
) click
join ad_list_string
on (ad_list_string.ad_id = click.ad_id);

select ad_id, catalog from ad_list LATERAL VIEW OUTER explode(catalogs) t AS catalog;
select ad_id, collect_set(catalog) from ad_list LATERAL VIEW OUTER explode(catalogs) t AS catalog group by ad_id;

select click.cookie_id, ad.catalog from click_log click
left outer join (
  select ad_id, catalog from ad_list LATERAL VIEW OUTER explode(catalogs) t AS catalog
) ad
on (click.ad_id = ad.ad_id);

create table cookie_cats as
select click.cookie_id, ad.catalog, count(1) as weight from click_log click
left outer join (
  select ad_id, catalog from ad_list LATERAL VIEW OUTER explode(catalogs) t AS catalog
) ad
on (click.ad_id = ad.ad_id)
group by click.cookie_id, ad.catalog
order by cookie_id, weight desc;

select cookie_id, collect_set(catalog) from cookie_cats group by cookie_id; -- where catalog is not null
select cookie_id, group_concat(catalog, '|') from cookie_cats group by cookie_id; -- impala group_concat

本文出自 “点滴积累” 博客,请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1717577

时间: 2024-09-20 11:39:44

hive ETL之广告行业-用户行为归类sql的相关文章

hive ETL之物流行业-订单跟踪SLA sql

-- case1 -- --========== order_created ==========-- /* 10703007267488    2014-05-01 06:01:12.334+01 10101043505096    2014-05-01 07:28:12.342+01 10103043509747    2014-05-01 07:50:12.33+01 10103043501575    2014-05-01 09:27:12.33+01 10104043514061   

品友互动等互联网广告行业集体回应cookie事件

央视"3·15晚会"曝光,将众多精准营销企业置于风口浪尖."cookie"一词也在一夜之间红遍千家万户.1993年问世至今已存在整整20年的"cookie"何以突然沦为侵犯"隐私"的凶器?它是否真的能够实现对网络用户的隐私追踪?而那些建立在收集.分析用户数据基础上的互联网商业行为又是否真的存在违法.侵权之虞?日前,品友互动等互联网广告行业企业集体通过梅花网作出回应. 品友互动回应原文如下: 品友互动已于第一时间接受了央视3.1

移动广告行业现状堪忧 受地理位置限制

詹姆斯赫里茨(James Hritz)是一名资深的货币专家,曾经为Fox工作多年,现在任Tunewiki战略和商业开发副总裁.以下是詹姆斯赫里茨(James Hritz)对基于地理位置的移动化广告服务的看法,主要是站在应用出版商的角度来探讨的.实际上,在移动化广告业务中,地理位置是一个关键元素,换言之,地理位置一定程度上决定了移动化广告业务的发展. 近日,据国外媒体报道,关于移动广告行业现状,基于地理位置的广告投放业务确实能让广告商受益良多.真正面临的挑战的是移动出版商一方.除了最大的移动出版商

当广告行业遇见大数据

今天,广告行业又一次站立在了十字路口,传统广告公司借助大数据时代走上变革的道路,而网络科技公司凭借在大数据上的优势,强势吞噬着广告公司的生存空间.他们利用大数据,采取与品牌合作的方式,精准地重新制定.调整了品牌策略:在媒介上,他们同样利用大数据突出自己的优势,获得广告资源,并且达到了超精准的推送水平:而大数据与媒介科技的发展,让广告革命提上了日程.大数据时代正在影响和变革着当下的中国广告行业,作为一个广告人,应当对行业有着自己的理解,才能在广告发展的十字路口把握先机. 对广告策略的影响 大数据对

2011年VponLBS移动广告平台关于国内LBS广告行业高速发展的调查数据

全球的移动广告市场已经随着移动应用的快速发展而茁壮成长,而预计到2015年,全球的市场规模将可能会增至240亿美元.有调查数据显示,在过去的一年中,有超过一半的成年手机用户在商店内依靠使用智能手机来辅助购物决策(source:Pew Research Center's Internet&American Life Project).而随着移动用户数量的"井喷"也把各种创新商业模式的发展带动了起来-LBS移动广告就是这其中之一. 如果把LBS移动广告与基于其他应用或者模式的广告相

瞄准新市场 万网云计算助传统广告行业制胜云端

中介交易 SEO诊断 淘宝客 云主机 技术大厅 就在大家还认为云计算只是少数企业.少数行业才适用的新兴服务时,万网云计算已经为包括教育.广告.零售.电子商务.移动互联.ISV等众多行业的众多企业提供了整体的云计算解决方案服务.其中,传统广告业对云计算的青睐正逐渐形成一种市场趋势. 来自中国万网的消息,在其云计算服务推向市场不到一年的时间里,国内著名的几家4A广告公司,包括奥美(O&M).李奥贝纳(Leo Burnett).麦肯.光明广告(McCann).广东英扬传奇.阳狮等传统广告业界的翘楚均不

大数据和精准投放是广告行业的一场变革

大数据与生俱来的变革力正在极大地改变社会结构.商业模式和人们的生活方式,对于广告行业也是如此. 腾讯集团法务部总经理江波在2016腾讯大数据合作与合规峰会上称:"如何能够合规.有效.安全地使用数据,需要寻找大数据的风险边界,在用户的隐私.数据安全和大数据产业发展之间寻找一种动态的平衡." 广告的半壁江山来自互联网 在2015年,广告业已有了将近6000亿的规模,其中约48%的份额由互联网广告贡献. 互联网广告之所以有如此的发展态势,中国广告协会副秘书长周玉梅在出席上述峰会时表示,根本原

论坛如何留住知错的用户,又处理掉那些纯粹是来打广告的用户

摘要: 忙了一段日子,也渐渐地离开SEO这个圈子了,大家都淡忘了我,正如我再那么投入SEO一般,我早前就说SEO已经离我远去,真的不错,远去了,才会偶尔想起,还是会想起我奋斗的那些日 忙了一段日子,也渐渐地离开SEO这个圈子了,大家都淡忘了我,正如我再那么投入SEO一般,我早前就说SEO已经离我远去,真的不错,远去了,才会偶尔想起,还是会想起我奋斗的那些日子.论坛有很多个,是给大家来交流探讨的一个社区,大学有大学的bbs.行业有行业内的交流论坛,论坛里面你可以吐槽,你可以顶贴,你可以分享你的干货

富媒体广告行业的价值——朝阳下围城中的“夕阳”行业

在富媒体广告行业里打转了多年,眼见富媒体广告从四年前每月几天的投放量,到现在每天几十个以上的投放,心中不免有些自豪.根据艾瑞2006年互联网广告投放统计数据,富媒体广告形式已经占据百分之五的份额.富媒体广告已经积累了大量的投放量,量之积累,必将产生质变. 短短四年间,富媒体市场已经从一家供应商到目前十几家供应商,在这么小的行业里汇聚了至少四个著名的产品SmartCreative/iCast/eyeblaster/UV,至于其他剑走偏锋的富媒体公司暂且不论. 行业在量变中,积累了质变的冲动,冲动既