5万余首圣诞歌词数据包+Kaggle数据科学家的脑洞=?(附数据包+代码)

昨天在python给你的圣诞帽上意犹未尽的动手党(点击查看相关文章),今天的话题依然和圣诞节有关。

前几天,文摘菌发现了一个Kaggle上的圣诞歌曲数据礼包。这里有你能想到所有的圣诞歌曲,总计超过5万首。而Kaggle上的数据科学家用各种方式要把它们玩儿坏了,一起看看有哪些有趣的结论!

又是圣诞节,有没有被大街小巷的圣诞歌曲洗耳朵?有没有想过这些圣诞歌曲到底有什么魔力?他们的歌词又有什么共同点?

我们把所有跟圣诞有关的歌曲都打包起来,总计超过5万首歌曲。在这篇文章里,文摘菌将首先用朴素贝叶斯对这些歌曲文本进行全面分析,来快速识别出,到底什么样的歌曲才能被成为真正意义上的圣诞歌曲。

之后,我们还可以一起看看,kaggle上的数据科学家用这个数据包分析出了的这些有趣的结论:


与圣诞关系最密切的歌词TOP20;
圣诞歌产量最高的歌手TOP20;
圣诞歌词中,什么样的双音节词最受欢迎?



这个数据集取自55000多段歌词,同时涵盖了超过55000首歌曲。你能想到的全都有,包括Jinglebell :)如下:这是一个有55000多行和4列的数据框:

  • 艺术家
  • 歌曲
  • 链接
  • 文本

我们的目标是对歌曲文本进行全面分析,帮助我们快速识别出圣诞歌曲。为此,我们首先在数据框中添加一个额外的列,给每首歌曲一个“圣诞”或“非圣诞”的标签,也就是歌词中包含“Christmas”,“Xmas”或“X-mas”的歌曲将被标记为“圣诞”,不包含的则标成“非圣诞”。

这还只是标签的初始化,我们之后会将朴素贝叶斯应用于一组训练集以识别其他圣诞歌曲。但现在,我们将通过一些直观的描述性方法来探索数据集。看看会得到一些什么有趣的结果。

探索初始的圣诞歌曲

清理 & 标记化

首先我们从数据清理和标记化开始~随后,圣诞歌曲将被选中并被保存为一个变量

相关性分析

现在我们可以从不同的角度由相关性来分析原始的圣诞歌曲。接下来,我们运用networkD3 html widget将相关性可视化:具有相同总连接数的节点将被赋予相同的颜色,而边的颜色意味着由两个节点共享的公共邻居的数量。而且,一个节点的大小表明它的中心性,中心性由中间性(即通过它的最短路径的数量)定义。在两个节点之间的距离是1的最小最大变换减去相关度,这是有意义的,因为直观来说,相关性越高,两个节点应该越近。而且,距离越短,边缘越宽。

请注意,相关性永远要基于歌词才行

单词之间的相关性

出现超过100次的单词与至少另一个相关度大于0.55的单词相关。








歌曲之间的相关性

一首歌曲与其他至少3首相关的歌曲之间的相关性大于0.75-通过这个方法,我们可以检测到类似或被略微修改的歌曲。

特定的词之间的相关性

艺术家之间的相关性








词云

原始圣诞歌曲的词云

朴素贝叶斯

朴素贝叶斯是一种流行的监督机器学习算法,它能处理具有大量特征的分类问题。它是基于一个类,这个类的特征是被假定独立分布的,所以从这种意义上说,它是“朴素”的。在我们的例子中,我们想知道,给定一组特征之后,即文档中单词的tf-idf,一首歌曲是否应该被朴素贝叶斯分类为圣诞歌曲。

构造最大似然估计的难点是先验分布的选择,即类的概率分布。通常假定它是按类频率均匀分布或估计的。在我们的例子中,我们使用了先验分布的多项式分布和均匀分布,这意味着我们在没有进一步信息的情况下对歌曲的分类是没有偏见。

识别隐藏的圣诞歌曲

我们识别出2965首隐藏的圣诞歌曲,在最初的500首圣诞歌曲中,有2首歌曲被朴素贝叶斯拒绝认定为圣诞歌曲。

探索隐藏的圣诞歌曲

因此我们已经成功地识别出一些宗教圣诞歌曲,它们的标题通常不包含“Christmas”或“X-mas”单词。

潜在狄利克雷分布&t统计随机邻域嵌入

数据准备

只有包括隐藏在内的圣诞歌曲的前300项特征,将被用来计算Rtsne和LDA,否则存储空间会不足。


LDA

LDA是潜在狄利克雷分布,2003年在Blei, Ng, Jordan的论文中被提出。这是一个生成语料库的概率模型,其中的文档被表示为关于潜在主题的随机混合物,一个单独的文档通常只有几个主题,被分配了不可忽视的概率。此外,每个主题的特点是单词的分布,通常只有一小部分词被大概率分配给某个主题。变分期望最大化算法或吉布斯抽样用于参数的统计推断。

LDA需要固定数量的主题,也就是说,在应用该算法之前,应该先知道主题的数目。然而,有可能通过不同的性能度量来确定主题的最佳数量,比如Nikita,用ldatuning包。

因此,我们将选择8作为主题的最佳数量。

我们可以使用tidytext包 来检查每个文档的主题分布,即对于每个文档,它属于从1到8某个主题的概率的总和等于1。

同样,我们也可以获得每个主题词的概率分布,即每个主题产生不同的单词的概率总和等于1。

每个主题的关键词是:

t-SNE




由van der Maaten和Hinton于2008年开发,t-SNE代表统计随机邻域嵌入,这是一种降维技术,用公式表示出捕获的原始数据点的局部聚类结构。它是非线性的和不确定性的。

下面的计算大约需要30分钟。

如果我们重复以上过程在不只一次迭代上呢?

到目前为止,我们只运行了一次迭代的朴素贝叶斯。然而,我们可以为多个迭代重复这个过程,即训练一个朴素贝叶斯分类器并重新标记所有的假阳性为隐藏圣诞/圣诞,所有的假阴性为隐藏非圣诞/非圣诞,一遍遍重复进行。

首先,我们再次准备数据以避免错误。

运行10次迭代。

然后,精度和f1得分开始时单调增长,然后收敛到大约0.95的值,这意味着没有遗留很多待检测的“隐藏圣诞歌曲”和“隐藏非圣诞歌曲”。然而,在这个过程中,我们始终相信朴素贝叶斯分类器是100%准确的,这实际上几乎是不可能的。因此,在每一次迭代中,有一些歌曲被朴素贝叶斯错误地分类为“圣诞节”,在训练集的下一个迭代中用于训练朴素贝叶斯分类器。有了这个不断累积的错误,我们可能会担心,随着迭代次数的增加,结果实际上会更糟。

最后,我们大约有一半的歌曲被归类为“圣诞节”,而另一半为“不是圣诞节”,这似乎是非常不可信的。这倒是引出了一个问题:是否存在一个最佳的迭代次数?我们不能简单地手动控制这57650首歌是否被正确分类。所以这仍然是一个有待回答的开放式问题!

还有哪些有趣的结论

之后,我们用这些数据,还分析出了以下这些有趣的结论,基于篇幅的原因,我们直接贴出kaggle上的一些有趣结论,不再在微信推文中po出实现代码,想亲手尝试的同学,请拉到文末查看kaggle上的代码和数据传送门~

原文发布时间为:2017-12-25

本文作者:文摘菌

时间: 2024-09-28 06:15:23

5万余首圣诞歌词数据包+Kaggle数据科学家的脑洞=?(附数据包+代码)的相关文章

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

中国首家网络3D地质博物馆开通 真实比例还原万余件标本

中国首家网络3D地质博物馆开通 网络3D地质博物馆1:1真实比例还原馆藏真品 东方网记者程琦4月22日报道:博物馆是集中收藏.保护.研究和展示历史记忆的殿堂,也是一个城市独特的文化标志.今天中国首个3D全景网络地质博物馆http://www.aliyun.com/zixun/aggregation/18783.html">正式上线运行. 该3D全景网络地质博物馆是以中国最大的综合性地质博物馆之一的浙江东方(600120,股吧)地质博物馆为蓝本,1:1真实比例还原馆藏的1.2万余件标本.其以

淘宝网2011年处理侵权数据:处罚会员70万余人次

[亿邦动力网讯] 3月12日消息,今天淘宝网公布的官方数据显示,2011年,淘宝网共处理侵权商品信息6320万条,其中淘宝网通过专项打击.神秘购买鉴定等方式处理量超过5400万条,接受投诉受理的商品信息处理量为870万余条,处罚会员70万余人次. 淘宝网介绍,在去年一季度淘宝网开展的"涉嫌假冒伪劣和侵犯知识产权商品专项"行动中,共处理相关信息约2500万条:6月份,淘宝联合高丝.飞利浦.资生堂.嘉娜宝等国际知名品牌商开展打击未生产假货专项行动,查获此类假货2.4万余件:8月,淘宝响应公

两万余警力启用的移动警务平台长什么样?

两万余警力启用的移动警务平台长什么样? 阿里巴巴是电商平台?你的认知太片面了.阿里巴巴不仅是电商巨头,也是中国云计算和大数据时代的引领者,而且在传统的企业级市场也在快马加鞭,在企业互联网发展的关键节点,挖掘企业级市场的红利.推出钉钉平台,让阿里巴巴实现了C端用户和企业级用户的全覆盖,正在向多行业多业务场景渗透. 以"互联网+政务"为例,尽管已经提了多年,但是,落地情况并不尽如人意.然而在今年全国两会后,"互联网+政务服务"的改革在公安政务板块又获突破性进展.除了之前

广东3.6万余用户半价体验WCDMA

广东六城市3.6万余用户半价体验WCDMA --专访广东联通副总经理周友盟 后天,适逢5·17世界电信日, 广东联通WCDMA将正式开始试商用.届时,广东省六城市的3.6万多名用户将率先"品尝"WCDMA的滋味.试商用在即,广东联通的3G网络.终端.业 务.资费都将以什么面貌出现在用户面前?试商用用户毕竟有限,其他用户又将能够于何时加入到WCDMA阵营?4月28日推出的全业务"沃"(WO)品牌, 未来将如何发展?面对移动通信业高投入.低增长,移动用户趋于饱和的态势,

江中“网络岛”:2万余人小镇开400家网店

绵延的长江静静地流过.江到下游,在江苏境内有两市隔岸相望--南侧是镇江市,北侧是扬州市,位于两市东边相邻处有一个叫作高桥的小镇,高桥镇行政区划隶属于镇江市丹徒区,但与镇江其他地区隔江相望.每到冬天,高桥镇就备受瞩目,从这里生产包装好的雪地靴源源不断地送往全国各地,甚至大量出口到外国.过去,长江一度成为阻碍高桥经济发展的一道障碍:今天,通过网络,高桥正在快速朝着雪地靴之乡迈进.官方统计数字显示,高桥镇人口不过2万余人,却有400多家网店,俨然一座江中的"网络岛".12月20日至21日,现

万余网友吐槽洗衣机成“高端衣料”杀手

"一件8200的羊毛裙仅仅穿了一次,就被家里的洗衣机洗坏了!不但稀稀疏疏地掉了很多毛,连裙子的版型都来了个大'变脸',实在是让人心里窝火."近日,一名叫"馨暹小事"的 网友在论坛发布了这样一则言论,随即便得到了一众网友的声援."名牌杀手"."高端衣物终结者"--2天内便吸引了1万余名网友吐槽,洗衣机一时间成了众矢之的.洗衣机诟病惹万余网友吐槽随着生活品质的提升,大众服饰已然不能满足品味需要,于是高端服饰应运而生.尽管比普通的价

世界通传销帝国覆灭回顾:13万余人身陷其中

世界通涉嫌传销非法敛财逾10亿 十余疑犯落网 点击广告就能发财,世界通公司编造的这个致富神话,在不到两年的时间里,已传遍全国20多个省.市.自治区,让13.5万余人身陷其中.通过销售具有即时通讯和点击收看广告功能的Link-world软件卡,世界通公司非法获利达10亿元人民币,成为了神话故事里的最大赢家. 口本报记者卢志坚 通讯员郑检轩 9月9日和10月16日,香港世界通科技有限公司(以下简称世界通公司)特大传销案的犯罪嫌疑人世界通公司总裁施永兵.前营销总裁强科信.营销总裁傅衍平.行政总裁邵军锋

世界无车日,深圳万余人次免费乘地铁地铁“有点挤”

无车日 公务员停驶想做不容易 16:28 北环上步立交路段 无车日 公务员停驶想做不容易 16:15 北环银湖路段 9月22日是世界无车日.为鼓励绿色出行,昨日深圳实行持行驶证免费坐地铁公交的政策,吸引超1万多人次参与.记者调查发现,公务员系统反应较冷,多名公务员表示"没收到通知,身边开车上班的人没少." 交通扫描 万余人次免费乘地铁 地铁"有点挤" 早在2012年,深圳在世界无车日当天,取消了对部分路段禁行的强制措施,而是通过加强宣传.鼓励公共交通出行的方式,呼吁