阿里音乐打算用大数据发掘下一个TFboy

大数据时代,音乐界正迎来一场革命:下一首歌流行什么,听众说了算。昨天,记者从阿里音乐得到证实,阿里音乐正在开展一项尝试:将阿里音乐平台上的用户行为数据与社交网络数据、新闻资讯数据等结合,借助阿里云“数加”上的大数据工具,预测哪些音乐人会成为下一个音乐巨星。

有猜测指出,这项技术同阿里音乐一直秘而不宣的新平台有密切联系。

据阿里音乐的数据工程师介绍,用户在音乐平台上收听、分享、收藏音乐的行为,以及在社交网络、视频网站、贴吧论坛上做出关注、评论、转发、点赞等动作,反映了对音乐人的喜好程度。“我们用word2vector算法对关键词进行聚类,结合转发点赞等原始及衍生特征,通过gbdt分布式算法进行预测分析。寻找隐藏在其中的下一个TFboy”。

不过,收集所有人的意见并做出判断,并非易事。阿里音乐的工程师透露,该项目仅每天要处理的阿里音乐平台数据就达到了100TB,更不用说海量的外部互联网数据。

值得庆幸的是,大数据技术的飞跃发展为这一设想的实现提供了基础。在过去的5年里,全球大数据计算性能实现了超过21倍的提升。2011年,Tritonsort排序100TB数据需要8274秒;到2015年,阿里云的MaxCompute只需要377秒。除了MaxCompute,阿里云的分析性数据库Analytic DB可以对90亿条的粉丝关系数据进行实时查询计算。

本文转自d1net(转载)

时间: 2024-10-13 22:35:24

阿里音乐打算用大数据发掘下一个TFboy的相关文章

link中如果单向传递数据给下一个数据,如同数据的接力一样?

问题描述 link中如果单向传递数据给下一个数据,如同数据的接力一样? link中如果单向传递数据给下一个数据,如同数据的接力一样? 解决方案 参考:http://www.cnblogs.com/chenxizhang/archive/2010/01/03/1638140.html

IDG 李丰:大数据是下一个爆发点!

联想之星和创客总部举办了一个主题为"寻找下一个移动互联网爆发点"的小型沙龙.在这次会上,不仅宣布了由联想之星创业联盟成员企业和北大校友共同发起的创业孵化器创客总部成立,还邀请联想之星投资总监刘维.IDG资本合伙人李丰.天天动听CEO黄晓杰.墨迹天气CEO金犁等人进行了演讲,从不同角度对移动互联网的未来发展趋势和可能出现的爆发点进行讨论.其中 IDG资本合伙人李丰作为投资人代表做了发言,分别对当下移动互联网创业的几个热点如大数据.移动交易.软硬结合等进行了点评,以下内容整理自李丰在现场的

自动洞察:大数据的下一个重大转折

为了跟随大数据的发展以及提高我们对信息的使用,我们需要具有洞察力的应用,可以在连接洞察与操作的时候快速且低廉地提取相关性. 我坚持认为具有洞察力的应用是帮助企业高效探究大数据的关键,可以提高决策效率和解决重大问题.为了更好的理解和重视我们开发该应用的重要性,有两件事是很重要的,一是了解大数据大体上发生了什么,二是评估我们使用商业智能系统的经验如何促进我们思考这个应用. 因为我认为具有洞察力的应用是大数据的下一个变化(可以看看最近IBM沃森平台使用的一些应用),我会发表系列博客进一步探究这个问题.

大数据的下一个前沿是什么?

MGI(麦肯锡全球研究院)和麦肯锡商业技术办公室的报告显示,当今世界的信息量已呈爆炸式增长态势,大型分析数据集--即所谓的大数据,将成为引发新一轮生产力增长.创新及竞争的关键基础之一. 多媒体的崛起,社交媒体及物联网所捕捉到的.与日俱增的信息量,将会使数据在可预见的未来呈指数性增长. 麦肯锡研究了五大领域的大数据--美国医疗保健.欧洲公共部门.美国零售业.美国制造业及全球个人位置数据.对于每个领域,大数据都能创造价值. 例如,如果充分利用大数据技术,零售商就能使其营业利润率提高约60%以上.大数

大数据的下一个五年:Hadoop将推动数据平民化

美国联合市场研究(Allied Market Research)机构近日预测,到2020年,Hadoop的市场价值会超过500亿.Hadoop技术发展至今,走过了近九个年头,乘着大数据的东风,它以低廉的存储和快速的处理能力迅速在中小企业蔓延开来.而据联合市场研究预测,五年后,Hadoop会得到更广泛的部署,不止局限在中小企业. 几年前,还有评论人士称,Hadoop只能应用于企业10%的数据.但今日一份名为<2014年数据库技术现状调查>的数据显示,13%的受访者已经将Hadoop应用于产品生产

软件定义IT已成为数据中心下一个发展模式

虚拟化在数据中心的应用意味着软件定义计算逐渐成为主流,而在软件定义计算的成功摸索下,软件定义存储也迅速获得市场的认可,虽然SDS的商业解决方案还处于刚刚起步的阶段,但其大大提高了存储丹云的灵活性和可用性,这意味着存储单元在私有云和公有云数据中心中可以自动和动态的分配. 迈向下一个数据中心模式?很明显的是,软件定义计算正在数据中心中快速的增长,例如,如今在数据中心中增长非常快的软件定义网络,能够提高灵活性和配置网络虚拟化. 根据知名调研机构IDC表示,2014年至2018年,企业和云数据中心领域的

不能传递数据到下一个网页 小弟求各位解决下

问题描述 分级下拉列表就是论坛里面发帖的时候"选择论坛"的这个功能怎么都不能把表单数据传递到下一个页面怎么解决啊??????????????????????????? 解决方案 解决方案二:贴出你的代码..解决方案三:对不起额小弟今天第一次来csdn怎么老是有非法词组?解决方案四:引用楼主ppq3355的回复: 分级下拉列表就是论坛里面发帖的时候"选择论坛"的这个功能怎么都不能把表单数据传递到下一个页面 什么意思?代码呢,,解决方案五: functionselect

如何用大数据揪出一个骗子? | 深度

    有人从偏远的山村低价购买身份证,以每个身份证几百元的价格卖给下家: 黑客开发出自动化的程序和脚本,寻找.开发最先进的移动端模拟器: 在无数的打码平台上,想要赚外快的人们正在以每个一分钱的酬劳手动输入他们看到的图形验证码: 所有的"分工"都指向一个明确的目的:把某 O2O 或金融理财类 App 用来招揽新户的高额补贴瞬间"薅"光. 对于很多创业团队来说,新业务往往会在"薅羊毛"团伙的狂轰滥炸由于补贴支出过于庞大而被迫下线.然而这还远远不是全

论证:为什么大数据是下一个浪潮?

数据成为 DT 时代的核心要素. 今年上半年互联网热出现一个新动向,就是入口和应用场景的争夺已到了短兵相接.贴身肉搏的激烈程度.巨头们争夺的最终目标是数据资源.数据已成为 DT(数据技术)时代的核心要素.世界经济论坛报告曾经预测: "未来的大数据 将成为新的财富高地,其价值可能会堪比石油",成为战略性资源. 被低估的影响:大数据将指引人类走向智能社会. 一方面大数据"量"和"质"的双提升奠定人工智能的基础,另一方面数据驱动颠覆传统计算机算法,导致