2016中国高校计算机大赛——大数据挑战赛亚军:陕西师范大学团队

2016中国高校计算机大赛大数据挑战赛上,陕西师范大学网路信息中心团队对阿里音乐流行趋势预测进行了自己的成果展示。首先从解题思路开始谈起,重点对算法进行了阐述,包括类别最优值选择法和子序列模式匹配法,最后对比赛中遇到的问题进行了总结。一起来了解下。

 

总体思路

陕西师范大学的同学们采用了标准时间序列的分解思想,将日播放量分解为长期趋势、中期与随机干扰三项,但在最终的算法当中,只对长期趋势进行了预测,我们的算法分为数据预处理、编码、分类、预测方法选择和附加处理五个环节,整体来讲是以歌手为单位,对数据集进行预处理,根据预处理结果对歌手进行编码,依据编码将所有歌手进行分类,分为24个基本类别,针对每一个类别选择出它的最优预测方法,最后为了提高分数,我们也对部分歌手做了附加处理。

 

算法阐述

预处理部分,我们采用数加平台,在数加平台中建立SQL节点,执行SQL语句完成的数据预处理的结果,包括从样本中提取的每个歌手的日播放量序列、周播放量均值序列、月播放量均值序列、日变化率序列等,前三个序列将在编码中使用,日变化量序列用于选择每个类别的最优预测方法,在此基础上对歌手进行编码。

编码方法

编码包括月编码、周编码与日编码,进行编码的主要目的是大致的判断歌手日周月播放量的变化趋势,以月编码为例,编码是以基本趋势和增量趋势两部分组成的,基本趋势的编码规则是当月均值高于前一个月均值,则为“1”,否则为“0”,例如,4月份的均值大于三月份的均值,那一位就为1,5月份均值小于4月份均值,对应位为0;增量趋势代表变化幅度的大小,它的编码规则是若当月均值高于前一月,则当月均值除以上月均值的结果取整,否则上月均值除以当月均值的结果取整,例如,最后一位为5,表示的是8月均值与7月均值相差5倍以上,到底是增长还是下降,我们从前面基本趋势可以得出结果,综合基本趋势和增量趋势两个部分,就可以知道8月均值在7月均值上正向一个大幅度的增长。同样地,日编码和周编码都可以使用这个方法得到。

分类

根据月编码、周编码、日编码的基本趋势和增量趋势部分对歌手进行分类,最终分为24个基本类别。

进行分类的主要目的是将播放量变化总体趋势相似的歌手归为一类,例如,将基本趋势的后两个月连续上升的、增量趋势最后一个月变化平稳的歌手归为第一类,将增量趋势最后一个月大幅度增加的歌手归为一类,最初只分为8个类别,在比赛进行的过程中我们对类别进行了不断的验证与细化,最后形成了24个基本类别。

预测方法选择

对歌手分类好后,就需要对每个类别找到它的最优预测方法。寻找最优预测值的方法有两种:

类别最优值选择法

对歌手60天的日播放量进行预测,很难进行精确预测,应该尽可能预测9到10月份的日播放量的均值水平,因此选用最后三天均值法、最后一个月均值法以及各类使用百分位数作为预测值的方法等作为待选预测方法的集合。

有了待选方法集之后,就要针对每一类别的歌手评判他的最优预测方法,使用3到7月的数据作为训练集,8月份的数据为测试集,遍历待选预测方法集合,用当前选定的待选预测方法计算八月份的预测值,根据大赛提供给我们的评判公式,我们对8月份预测值进行评分,得分最高时对应的方法正是我们要求的这一类别歌手的最优预测方法,使用最优预测方法就可以计算这一类别歌手9到10月份的日播放量。

子序列模式匹配法

在第二赛季第二批数据集当中,通过对歌手的日编码、周编码的增量趋势部分查看发现,存在40多位歌手8月中下旬的日播放量突然成倍增长的情况,这部分歌手的日播放量趋势与其他歌手的相差很大,我们认为对这部分歌手的预测要采取不一样的方法,因此,针对这一类歌手,我们采用子序列模式匹配法来进行预测,这种方法是通过对其他歌手样本数据中曾经出现过的类似曲线的学习,
计算出待预测歌手9-10月份日播放量回落到正常水平的预测值。具体来讲分为以下三步:

  • 截取歌手的待匹配子序列:截取待预测的歌手最后15天的日变化率序列;
  • 求最佳匹配子序列:在其他歌手的日变化率序列中找出欧式距离最小的5个子序列;

  • 确定预测值:从选出的五个最佳匹配子序列中选取后续变化比较平稳的三个子序列作为计算预测值的依据。

对选出的3个子序列匹配结束后的样本序列的变化率进行处理,计算出待预测歌手的9、10月份的日播放量趋势。我们发现歌手的日播放量回落一般是需要一个过程的,不是一下子回落到水平状态的,因此我们做了分段下降处理,使9到10月份呈现一个阶梯式的回落过程。

附加处理

  • 对top1歌手的处理:

上图为歌手月播放量均值的示意图,从图中可以明显看到,第一名歌手的播放量是其他歌手的若干倍,由大赛提供的评判公式可以知道,对日播放量越大的歌手预测的准确程度对分数的影响越大,因此我们认为,提高第一名歌手的预测准确度是非常重要的,所以在已有预测值的基础上根据二分法对第一名歌手的预测值进行了多次调整,最后提高了600多分。

  • 发布新专辑:根据专辑发布时间,以发布时间为分割点对9-10月份进行分段,根据专辑中的歌曲数量,对发布时间后的预测值略作提升,用这个值作为最后的预测值。

总的来说,我们是从样本集中提取出每个歌手的日、周、月播放量序列和日变化率序列,根据这些序列对每个歌手进行日编码、月编码与周编码,根据编码将所有歌曲分为24个基本类别,然后对每个类别选用它的最优预测方法,同时对月播放量最高歌手和有新专辑发布歌手做了特殊处理,形成最终提交的结果集。

 

曾经的尝试

我们的算法不是一朝一夕形成的,也迈过了很多的坎坷。比如:

  • 我们尝试过使用常见时间序列模型( Arima、STL、Holt-Winters)进行预测,但由于预测的日期数较长,会出现过拟合问题;而且,Arima等时间序列模型的拟合依据与比赛的评判函数不同。
  • 我们也对所有日播放量歌手序列进行过周期性判断,但由于待预测的时间范围较长,样本集中的周期性未必会延续下去;趋势预测的偏差过大会导致叠加周期性后的效果适得其反。

周期性与趋势是随机序列中的确定性因素,随机干扰是时间序列中的不确定因素,它对长时间的预测扰动是比较小的,而且,我们也没有很好的办法地随机干扰进行提取,所以我们忽略了随机干扰。此外,我们也尝试过用户对歌曲的收藏量、下载量和播放量的相关性进行过研究。

时间: 2024-10-21 10:52:04

2016中国高校计算机大赛——大数据挑战赛亚军:陕西师范大学团队的相关文章

2016中国高校计算机大赛——大数据挑战赛极客奖:data_coders团队

2016中国高校计算机大赛大数据挑战赛上,data_coders团队对阿里音乐流行趋势预测进行了自己的阐述理解.首先对赛题进行了分析,确定解题思路,重点对算法进行了说明,包括类别分析.特征提取和算法模型,最后做了简要的总结.一起来欣赏下.   问题分析 已知20150301-20150830的用户行为和歌手歌曲历史记录,预测9月1日至10月30日1000位歌手每天的歌曲点播量? 对用户来说,用户涉及到的歌手进行点播量预测累加,但是单个用户点播行为随机性大,误差积累,模型复杂,直接Pass掉:对歌

2016中国高校计算机大赛——大数据挑战赛季军:Heal the World团队

2016中国高校计算机大赛大数据挑战赛上,Heal the World团队对阿里音乐流行趋势预测展示了自己的比赛成果.主要从问题分析开始谈起,确定解题思路,重点分享了分类与预测,进行了五步分离,最后做了简要总结.擦亮眼睛快看看吧.   问题分析 此次比赛给出了1000位艺人在2015年3月1日至2015年8月30日之间的所有歌曲数据以及相关用户的行为.要求预测9.10月份的艺人所有歌曲的播放量. 但是我们发现,预测的数值在一个比较短的时间以后都是一个常数.这启发我们直接利用一个常数作为预测.我们

2016中国高校计算机大赛——大数据挑战赛极客奖:COM团队

摘要:2016中国高校计算机大赛--大数据挑战赛是由教育部和全国高等学校计算机教育研究会联合主办,清华大学和阿里云联合承办,在"天池大数据众智平台"上开展的高端算法竞赛.本次赛题是对于阿里音乐流行趋势进行预测,本文整理自大赛极客奖COM团队的答辩演讲. 本文整理自获得本次2016中国高校计算机大赛阿里音乐流行趋势预测比赛中COM团队答辩视频.在游戏世界中其实流行这样的一句话就是:不怕神一样的对手,就怕猪一样的队友.团队对于最后获得的成绩是十分关键的,COM团队由三名成员组成的,下图为C

惠州将建中国高校科技成果大数据中心

还有9天,首届中国高校科技成果交易会(以下称"科交会")将在惠州举行.6月12日,记者从科交会组委会了解到,届时将有近300所国内外高校参会,展览和推介近万项科技成果,成为改革开放以来高校成果最集中的一次交易会. 经济第一大省遇上科研第一大队伍 12日,5个主办单位的有关负责人出席新闻发布会,介绍了科交会的准备情况.教育部科技发展中心主任.首届科交会组委会秘书长李志民介绍,广东是中国经济第一大省,高校是中国科研的第一大队伍,两者在科交会相遇将碰撞出产学研合作的火花,推动更多高校成果在惠

中国最大统计学与大数据盛会召开在即

文章讲的是中国最大统计学与大数据盛会召开在即,5月27日-29日,由中国人民大学.北京大学,伦敦政治经济学院.百分点集团与统计之都联合举办的"大统计与数据科学联合会议"将在北京召开,这是迄今为止中国最大的统计学与大数据盛会,是行业实践深度分享与大数据技术爱好者交流的平台,众多国际重量级嘉宾及专业领域顶级学者将参与主题演讲. 作为中国大数据产业的践行者与领军者,百分点集团将与北京大学商务智能研究中心携手,举办"2016百分点数据与价值国际论坛",届时将有来自埃森哲.加

专家支招中国首个国家级大数据综合试验区建设

中国首个国家级大数据综合试验区建设成为海内外关注焦点.专家纷纷支招中国首个国家大数据综合试验区的建设:立法入手.发挥市场作用,加大人才培养和引进. 2016年2月,中国国家发改委.工信部.中央网信办发函批复,同意贵州省建设中国首个国家大数据综合试验区. 贵州省长孙志刚数博会上表示,贵州将以建设中国首个国家级大数据综合试验区为契机,在数据资源共享开放.数据中心整合利用.大数据创新应用.大数据资源流通.大数据产业聚集.大数据国际合作.大数据制度创新等7个方面进行系统性试验,充分挖掘大数据的商用价值.

国双成功登陆纳斯达克成中国首家赴美上市大数据企业

当地时间9月23日,中国领先的企业级大数据分析软件提供商Gridsum Holding Inc.(国双)成功在美国纳斯达克全球市场挂牌上市,意味着国双成为中国首家赴美上市的大数据企业,也是2016年以来第五家在美国上市的中国企业. 国双的股票代码为"GSUM",发行价为每股ADS(美国存托凭证)13美元,高于定价区间.国双此次赴美IPO共融资约8,710万美元,首日开盘价为15.25美元,报收于15.75美元,相对于发行价涨幅为21.15%. 此前的美国当地时间8月26日,国双正式向美

大数据巨头入驻中国 Cloudera领跑大数据标准化

ZDNet至顶网服务器频道 12月15日 新闻消息:近年来,随着云计算.移动互联网.物联网等技术的快速发展,数据正呈爆炸式增长,大数据时代已经来临.面对中国市场对大数据解决方案的强劲需求,国际领先的大数据巨头Cloudera公司于12月10日正式宣布在中国设立分公司,将帮助Cloudera提升其在中国的影响力,为中国的用户提供大数据解决方案. 12日,Cloudera在北京召开了媒体见面会,包括Cloudera公司创始人兼首席执行官Mike Olson(欧胜迈).Cloudera全球副总裁大中国

去年QQ哪个表情最受欢迎?2016年QQ年度表情大数据告诉你

昨日,腾讯QQ发布了<2016年QQ年度表情大数据>,数据显示,"呲牙"表情连续五年排名第一,发送量达303亿次,"微笑"."偷笑"表情位列二三为,分别被使用了150亿和130亿次以上,"发呆"."流泪"紧随其后分列第四和第五名,总数也都超过了100亿次.通过前五名的表情可以看出,虽然也会"流泪",但如何"笑"依然是QQ用户心中的主题.对于拥有8.77亿活