大数据时代,音乐界正迎来一场革命:下一首歌流行什么,听众说了算。昨天,记者从阿里音乐得到证实,阿里音乐正在开展一项尝试:将阿里音乐平台上的用户行为数据与社交网络数据、新闻资讯数据等结合,借助阿里云“数加”上的大数据工具,预测哪些音乐人会成为下一个音乐巨星。
有猜测指出,这项技术同阿里音乐一直秘而不宣的新平台有密切联系。
据阿里音乐的数据工程师介绍,用户在音乐平台上收听、分享、收藏音乐的行为,以及在社交网络、视频网站、贴吧论坛上做出关注、评论、转发、点赞等动作,反映了对音乐人的喜好程度。“我们用word2vector算法对关键词进行聚类,结合转发点赞等原始及衍生特征,通过gbdt分布式算法进行预测分析。寻找隐藏在其中的下一个TFboy”。
不过,收集所有人的意见并做出判断,并非易事。阿里音乐的工程师透露,该项目仅每天要处理的阿里音乐平台数据就达到了100TB,更不用说海量的外部互联网数据。
值得庆幸的是,大数据技术的飞跃发展为这一设想的实现提供了基础。在过去的5年里,全球大数据计算性能实现了超过21倍的提升。2011年,Tritonsort排序100TB数据需要8274秒;到2015年,阿里云的MaxCompute只需要377秒。除了MaxCompute,阿里云的分析性数据库Analytic DB可以对90亿条的粉丝关系数据进行实时查询计算。
本文转自d1net(转载)
时间: 2024-10-13 22:35:24