2016中国高校计算机大赛——大数据挑战赛极客奖:data_coders团队

2016中国高校计算机大赛大数据挑战赛上,data_coders团队对阿里音乐流行趋势预测进行了自己的阐述理解。首先对赛题进行了分析,确定解题思路,重点对算法进行了说明,包括类别分析、特征提取和算法模型,最后做了简要的总结。一起来欣赏下。

 

问题分析

已知20150301-20150830的用户行为和歌手歌曲历史记录,预测9月1日至10月30日1000位歌手每天的歌曲点播量?

对用户来说,用户涉及到的歌手进行点播量预测累加,但是单个用户点播行为随机性大,误差积累,模型复杂,直接Pass掉;对歌曲来说,每一首歌曲进行预测累加,但是单首歌曲点播量随机性大,误差积累,所以也被抛弃了;因此,我们从歌手的角度出发,直接预测,统计183天每一天的歌曲点播量,从中构建模型预测,抽样用户越多,歌手歌曲点播量规律越明显。

求解思路

  • 时序模型预测:arima模型需要对每个歌手训练三个参数,参数多且需要手动调参,不适合长时间序列的预测;
  • 回归模型预测:采用gbdt、rf机器学习算法,需要构建特征,但特征不充足,效果不好;
  • 中位数:选用最后十天点播量中位数,不受奇异值影响,反映数据集中趋势,效果让我们惊喜;

虽然能够从用户涉及的歌手找到规律,但仅仅靠这些规律去构建模型,预测接下来两个月每一天的点播量,还是有点不切实际的,只要在两个月中歌手有突发因素发生,由于突变因素导致的点播量猛增,模型是没有办法预测的,所以启发我们构建歌手画像+歌手分类+函数拟合的思路。

 

算法介绍

数据处理

  • Language:1:国语;2:日语;3:韩语;4:英语;11:粤语;12:闽南语;14:法语;100:纯音乐。
  •  Gender:1:男;2:女;3:团体。
  • 歌手画像:性别,语言,专辑发行时间,专辑包含的歌曲数。
  • 根据歌手画像从虾米官网爬取歌手姓名。
  • 爬取歌手在20150301-20151030期间发行的专辑。
  • 爬取20150301-20151030期间发行专辑的详细信息:专辑发行时间,专辑的歌曲数,专辑评论数,专辑评分,专辑乐评时间及乐评内容。

查找20150301-20151030期间的综艺节目有哪些信息涉及到需要预测的歌手(譬如:中国好声音,蒙面歌王,无限挑战等);查找20150301-20151030期间的热门电影,电视剧主题曲有没有需要预测的歌手演唱;查找20150301-20151030期间有哪些国外歌手在中国开过演唱会;绘制每个歌手183天的趋势图。

类别分析

将歌手分为两大类:

  • 平稳型歌手:

A.上升型歌手;B.下降型歌手;C.稳定型歌手;D.周期型歌手。

  • 突变型歌手:

E.发行新专辑;F.参加综艺节目;G.开演唱会;H.中国好声音有学员翻唱其歌曲;                                                                                                    
I.演唱热门电视剧或者电影主题曲等。

特征提取

突变歌手特征:

1. 一般来说,突变型歌手的点播量在突变因素发生后呈现出长尾效应的特征,符合互联网短平快的特点;

2. 突变因素发生后的5天内点播量会达到最大峰值,突变因素效应持续大概15—30天不等,之后达到稳定值,稳定值停留在峰值和突变因素发生前10天点播量中位数的中间位置附近。

此外,我们发现不少歌手点播量呈现周期性规律;节假日点播量一般会稍微降低;每日用户数周期性规律明显,呈现总体上升趋势。

算法模型

  • A、B、C平稳型歌手:(线性拟合)

  • 周期型歌手D:(规则+中位数)

  • E、F、G、H、I突变型歌手:(高斯函数拟合)

比如对于突变因素为发行新专辑的歌手,特征主要包括专辑发行时间,专辑的歌曲数,专辑评论数,专辑评分,专辑乐评时间及乐评情感得分等。

 

收获与成长

通过这次实践,我们收获颇多,认为应该以业务为本、数据为源、模型为武器,将主要精力从算法转移到对业务的深刻理解和分析中,呈现出来的模型才有可视用性和泛化性。

同时,我们也感谢阿里提供的真实的数据、优秀的大数据平台和良好的技术交流环境。我们也希望平台今后可以支持Python语言,可以更好地支持数据可视化。

 

 

时间: 2024-10-30 22:57:18

2016中国高校计算机大赛——大数据挑战赛极客奖:data_coders团队的相关文章

2016中国高校计算机大赛——大数据挑战赛极客奖:COM团队

摘要:2016中国高校计算机大赛--大数据挑战赛是由教育部和全国高等学校计算机教育研究会联合主办,清华大学和阿里云联合承办,在"天池大数据众智平台"上开展的高端算法竞赛.本次赛题是对于阿里音乐流行趋势进行预测,本文整理自大赛极客奖COM团队的答辩演讲. 本文整理自获得本次2016中国高校计算机大赛阿里音乐流行趋势预测比赛中COM团队答辩视频.在游戏世界中其实流行这样的一句话就是:不怕神一样的对手,就怕猪一样的队友.团队对于最后获得的成绩是十分关键的,COM团队由三名成员组成的,下图为C

2016中国高校计算机大赛——大数据挑战赛亚军:陕西师范大学团队

2016中国高校计算机大赛大数据挑战赛上,陕西师范大学网路信息中心团队对阿里音乐流行趋势预测进行了自己的成果展示.首先从解题思路开始谈起,重点对算法进行了阐述,包括类别最优值选择法和子序列模式匹配法,最后对比赛中遇到的问题进行了总结.一起来了解下.   总体思路 陕西师范大学的同学们采用了标准时间序列的分解思想,将日播放量分解为长期趋势.中期与随机干扰三项,但在最终的算法当中,只对长期趋势进行了预测,我们的算法分为数据预处理.编码.分类.预测方法选择和附加处理五个环节,整体来讲是以歌手为单位,对

2016中国高校计算机大赛——大数据挑战赛季军:Heal the World团队

2016中国高校计算机大赛大数据挑战赛上,Heal the World团队对阿里音乐流行趋势预测展示了自己的比赛成果.主要从问题分析开始谈起,确定解题思路,重点分享了分类与预测,进行了五步分离,最后做了简要总结.擦亮眼睛快看看吧.   问题分析 此次比赛给出了1000位艺人在2015年3月1日至2015年8月30日之间的所有歌曲数据以及相关用户的行为.要求预测9.10月份的艺人所有歌曲的播放量. 但是我们发现,预测的数值在一个比较短的时间以后都是一个常数.这启发我们直接利用一个常数作为预测.我们

惠州将建中国高校科技成果大数据中心

还有9天,首届中国高校科技成果交易会(以下称"科交会")将在惠州举行.6月12日,记者从科交会组委会了解到,届时将有近300所国内外高校参会,展览和推介近万项科技成果,成为改革开放以来高校成果最集中的一次交易会. 经济第一大省遇上科研第一大队伍 12日,5个主办单位的有关负责人出席新闻发布会,介绍了科交会的准备情况.教育部科技发展中心主任.首届科交会组委会秘书长李志民介绍,广东是中国经济第一大省,高校是中国科研的第一大队伍,两者在科交会相遇将碰撞出产学研合作的火花,推动更多高校成果在惠

中国最大统计学与大数据盛会召开在即

文章讲的是中国最大统计学与大数据盛会召开在即,5月27日-29日,由中国人民大学.北京大学,伦敦政治经济学院.百分点集团与统计之都联合举办的"大统计与数据科学联合会议"将在北京召开,这是迄今为止中国最大的统计学与大数据盛会,是行业实践深度分享与大数据技术爱好者交流的平台,众多国际重量级嘉宾及专业领域顶级学者将参与主题演讲. 作为中国大数据产业的践行者与领军者,百分点集团将与北京大学商务智能研究中心携手,举办"2016百分点数据与价值国际论坛",届时将有来自埃森哲.加

专家支招中国首个国家级大数据综合试验区建设

中国首个国家级大数据综合试验区建设成为海内外关注焦点.专家纷纷支招中国首个国家大数据综合试验区的建设:立法入手.发挥市场作用,加大人才培养和引进. 2016年2月,中国国家发改委.工信部.中央网信办发函批复,同意贵州省建设中国首个国家大数据综合试验区. 贵州省长孙志刚数博会上表示,贵州将以建设中国首个国家级大数据综合试验区为契机,在数据资源共享开放.数据中心整合利用.大数据创新应用.大数据资源流通.大数据产业聚集.大数据国际合作.大数据制度创新等7个方面进行系统性试验,充分挖掘大数据的商用价值.

国双成功登陆纳斯达克成中国首家赴美上市大数据企业

当地时间9月23日,中国领先的企业级大数据分析软件提供商Gridsum Holding Inc.(国双)成功在美国纳斯达克全球市场挂牌上市,意味着国双成为中国首家赴美上市的大数据企业,也是2016年以来第五家在美国上市的中国企业. 国双的股票代码为"GSUM",发行价为每股ADS(美国存托凭证)13美元,高于定价区间.国双此次赴美IPO共融资约8,710万美元,首日开盘价为15.25美元,报收于15.75美元,相对于发行价涨幅为21.15%. 此前的美国当地时间8月26日,国双正式向美

大数据巨头入驻中国 Cloudera领跑大数据标准化

ZDNet至顶网服务器频道 12月15日 新闻消息:近年来,随着云计算.移动互联网.物联网等技术的快速发展,数据正呈爆炸式增长,大数据时代已经来临.面对中国市场对大数据解决方案的强劲需求,国际领先的大数据巨头Cloudera公司于12月10日正式宣布在中国设立分公司,将帮助Cloudera提升其在中国的影响力,为中国的用户提供大数据解决方案. 12日,Cloudera在北京召开了媒体见面会,包括Cloudera公司创始人兼首席执行官Mike Olson(欧胜迈).Cloudera全球副总裁大中国

去年QQ哪个表情最受欢迎?2016年QQ年度表情大数据告诉你

昨日,腾讯QQ发布了<2016年QQ年度表情大数据>,数据显示,"呲牙"表情连续五年排名第一,发送量达303亿次,"微笑"."偷笑"表情位列二三为,分别被使用了150亿和130亿次以上,"发呆"."流泪"紧随其后分列第四和第五名,总数也都超过了100亿次.通过前五名的表情可以看出,虽然也会"流泪",但如何"笑"依然是QQ用户心中的主题.对于拥有8.77亿活