用机器学习鉴定《鬼吹灯 1-4》是不是天下霸唱所写

[1] 引子

鬼吹灯是一本我很喜欢的网络小说,它帮助我度过无数个空虚寂寞孤独冷的夜晚。不但文字看了一遍,后来被青雪故事出了有声书以后我还听了一遍。

按照作者描述,鬼吹灯一共出了 8 本,写作时间是 06 年 2 月到 08 年 2 月。虽然我们都知道一个系列开头精彩、后面烂尾的可能性是极大的,可鬼吹灯前四部跟后四部的差距也太大了吧。

鬼吹灯 1(前四部)的发生在知青大时代中。那是一个蔑视一切牛鬼蛇神的时代,而各种诡异的神秘事件又发生在军队中,最不信邪的一帮人遇到了邪乎事,到底怎么办?

连我老妈读了以后,也问我「粽子」到底有没有(作者说这个完全是他创造的名词啦)。而鬼吹灯后四本的时候,整个风格就变掉了。于是就有一堆网友质疑一个没经历过知青的年轻人怎么写得如此生动,后面又出来说前四部其实是一个知青老教师写的。

对于写作「抄袭」这事,似乎有一种叫做「文体学」的研究来解决。它的思路是一个人的写作内容会经常 改变,但不经意间养成的小习惯是不太会变的。

这个不经意的小习惯,就是对于副词、助词、介词的使用。

我们只要分析天下霸唱在副词、助词、介词使用的特点,就可以找到鬼吹灯前后四部是不是一个人写的了。这件事恰好是机器学习擅长的。

[2] 工作流

对于这种比较复杂的工作,实现设定一个工作流有助于自己在陷进去解决细节的时候,不至于迷失了最终解决问题的方向。

我的工作流是这样的:

收集鬼吹灯的 txt 版本,作为机器学习的基础素材;

选取汉语词典收录的常见助词、副词、介词,作为特征词;

由于这次找到的特征词都是单字,我就不用分词,直接算天下霸唱文章出现这些单字的频次;

计算每 N 万字的鬼吹灯片段出现特征字的次数,作为样本 x[i](经过几次试验,N 选为 1 万字);

将样本 x[i] 用 PCA 方法降到二维画图,直观感受自己的假设到底合不合理,调整 N 万字的大小和特征词的选择(降维仅用于画图,不参与模型预测);

将 x[i] 标准化,减少异常值;

随机选 70% 的数据进行机器学习建模(用 LogisticRegression 方法);

用剩下的 30% 数据进行预测,看准确性。

好了,下面正式开始。

[3] 选取特征词

一开始我认为老知青用字的广度可能没有现代人这么多。于是我用过最常见的 500 个汉字、2500 个汉字、次常用的 1000 个汉字来做特征,降维后画出来的图效果并不好。说明大家的用词广度上没有太大区别。

后来分别用了常用助词、介词、副词降维来作图,区分读已经比较高了。考虑到这点数据量处理的性能不是问题,我就将助词 + 介词 + 副词总共 655 个特征一起使用了。

乃乌乍了一万无不专业东且世两习也乱举公共其具勿匆决况净历分初刚划列则别刬剩兀允光先兜亏互亘亟匪匿阳阴阿除陡险都隐兹兼几凡即却再罔力加务动劣勤从会...(总共 655 个字)... 比照较方爿暨拿替望朝爰直由率被用繇齐至管自起趁践跟

[4] 计算词频

接下来是比较磨人的分块、统计词频、标准化工作。这块是体力活,写代码熟练的人就很快。像我这种很久没写,然后边查用法边试验的人,就得花上一段时间处理数据了。

据一些前辈反馈,数据的清洗、处理、标准化在现实工作中其实占用了大量的时间精力,最后 bingo 的那一下拟合其实并没花多久。

前戏长,高潮短。世间很多事情道理都是相通的。

[5] PCA 降维画图

将数据降到 2 维以后,用散点图画出来鬼吹灯 1-4(性感蓝)和鬼吹灯 5-8(鸡屎黄),在副词、介词、助词的使用习惯中是怎样的。

虽然降维损失了大量的信息,但是可以看到前 4 部跟后 4 部是有比较明显区分的。

特别提醒的是:菱形◆图示的点是第五部作品「黄皮子坟」。这部作品用词特征似乎是由一个习惯转到另一个习惯的过渡期。

这个猜测在后面的模型调整中会用到,现在先不展开。

[6] 机器学习 & 结果分析

随机挑选 70% 的数据进行机器学习,然后用 30% 的数据来检查我们的结果。

然后我们把预测的结果打印出来,看看到底是怎样的结果:

我把数据按照统计人习惯的方式整理一下,方便阅读:

用通俗一点的语言来解读,就是你随便给我一段鬼吹灯的片段,这个被训练过后的机器有 80% 的把握能判断出来这个片段是属于前 4 部还是后 4 部的。厉害了吧。

这个结果其实已经能说明鬼吹灯前 4 部和后 4 部的写作特征上发生了明显变化,按照文体学的理论,不大可能是一个人了。

但是我们还可以再进一步。还记得我们在看散点图的时候看到鬼吹灯第五部「黄皮子坟」的写作特征其实更像前四部么?

如果我们把「黄皮子坟」归类到前 4 部进行机器学习的训练,会发生怎样的事情呢?

[7] 将黄皮子坟调整后的建模结果

「黄皮子坟」划归前 4 部的散点图,可以看到黄蓝的界限更明显。

「黄皮子坟」归到前四部以后,有一个非常显著的结果出现:如果你把前 5 部的一个片段随机给到机器,然后让机器去猜它到底是前 5 部还是后 3 部,机器 100% 地猜对了!

用统计学的指标来看,机器已经非常确信地判断鬼吹灯的写作风格发生了显著变化。

天下霸唱的鬼吹灯 1-4 甚至 5 的很大一部分,应该是另外一个人所做了。

可是有人会说,你不给人家因为文章内容需要所以变了习惯啊?

  • 助词、介词、副词的使用习惯是比较难改变的,况且天下霸唱自己说这 8 本书是在 2 年写完的。习惯在短时间内就更难改了;
  • 我们拿天下霸唱写的另外一部长篇小说《谜踪之国》来看看它的写作特征图,你就明白习惯其实并没有多少变化。

谜踪之国为红色,按照相同方式处理以后,绿黄之间有一定的交叉,但是跟蓝样本的界线非常明显。(如果你是红绿色盲的话,也许会不太容易分辨)

[8] 总结

至此,机器学习的结果已经给了我们很强的「旁证」,告诉我们鬼吹灯前 4 部跟后 4 部的作者不太可能是一个人。

要不就是前 4 部是天下霸唱写,后面的作品是出了名以后找人代笔。要不就是前面是那个新闻老知青写的、天下霸唱润色,后面的作品才是霸唱本人的真迹。

不管怎样,总算完成了这次工作。吁,长吸一口气,结束。

本文作者:AI研习社

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-24 11:56:16

用机器学习鉴定《鬼吹灯 1-4》是不是天下霸唱所写的相关文章

魔术荧屏“走火入魔”谁将修成“魔”道正果

无论"开拓者"亦或"跟风人",大部分电视台表示会"将魔术进行到底". 刘谦在2009年央视春晚上凭借近景魔术迅速走红,一时间,围绕刘谦推出的访谈节目.魔术集锦在各电视台竞相播出:江苏卫视于3月份推出<我的魔术猜想>的核心是探索魔术的背后奥秘:星空卫视则将3年前热播的综艺节目<魔星高照>中刘谦的表演进行了重新剪辑:安徽卫视<周日我最大>栏目推出<刘谦魔术集锦>系列,并以1.545%的高收视(市场份额为

文学网站:左手版权 右手金钱

中介交易 SEO诊断 淘宝客 云主机 技术大厅 1月10日,盛大文学旗下的 起点中文网在京宣布:以100万元售出签约作品< 星辰变>的游戏改编版权. <星辰变>这部网络热门奇幻小说,在其签约网站起点中文网上的点击率已逾3600多万,并登上2007-2008各大搜索引擎小说搜索排行榜的第一名.2009年,其阅读热度至今不散,到目前为止,它仍然是最热门的网络小说,且图书版已由百花洲文艺出版社推出. 在<星辰变>之前,起点网推出的<鬼吹灯>在实体书出版.游戏改编和

传统文学涌上网络赚钱

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 继10月21日,新浪网一口气签约11位河南作家后,盛大文学旗下的起点中文网昨天更是大手笔,一下推出18位签约畅销书作家,如海岩.都梁.兰小龙.郭敬明.天下霸唱.宁财神.慕容雪村.陈彤.虹影.严歌苓等,甚至陈凯歌的名字也出现在签约作家名单中.网站的目的是希望让网络文学更加主流化,但是否能形成趋势,读者是否买账还是个未知数. 现场18位作家签约网

网络文学:文学梦的新空间

中介交易 SEO诊断 淘宝客 云主机 技术大厅 对于"网龄"超过10年的"资深网民"而言,他们或许不知道<鬼吹灯>或<明朝那些事儿>的具体情节,但他们肯定熟知<第一次亲密接触>里"痞子蔡"和"轻舞飞扬"的凄美故事. 1998年,蔡智恒在BBS上发表<第一次的亲密接触>,风靡整个中文网络世界.那时的网络远没有如今Web 2.0的热闹,几乎没有人使用在线即时通讯工具,但却有着网络文学

盛大全面开放网络图书资源

学习苹果iPad.亚马逊Kindle 盛大全面开放网络图书资源 马可佳 多年以前,一个网名叫做"痞子蔡"的男孩与一个网名叫做"轻舞飞扬"的女孩之间的爱情故事风靡了整个网络.于是,地铁车厢里,年轻男女手捧一本<第一次亲密接触>静静阅读,成为流行.今天,随着<鬼吹灯>这些网络小说的流行,网络阅读时代再次升级. 3月10日下午,盛大文学首席 版权官周洪立表示,盛大文学历时一年.耗资千万,已经完成了电子书各个环节的规划与布局,盛大"云中图书

ChinaJoy7让我们去看美女(组图)

腾讯展台的吕瑶这次吸引了众多眼球. 由新闻出版总署.科学技术部.工业和信息化部.国家体育总局.中国国际贸易促进委员会.国家 版权局和上海市人民政府共同主办的第七届中国国际数码互动娱乐展览会(ChinaJoy)7月22日在上海开启大幕.本届展会的主题是"迎接挑战,互利共赢,开创全球互联网产业新局面",展会期间还将同期举办中国游戏开发者大会(CGDC).中国游戏商务大会(CGBC),以及中国"网游十年"纪念活动等系列活动. 据介绍,本届展会参展面积超过35000平方米,

网络文学的商业利益链解读:用户需求才是王道

中介交易 SEO诊断 淘宝客 云主机 技术大厅 网络文学在今天已经不再是新鲜名词.十年之前,一部网络小说<第一次亲密接触>迅速走红之后,网络文学这块巨大的市场蛋糕也逐渐被商家开发并认同.十年之后,文学网站成为互联网产品中不可或缺的一部分,同网络游戏.SNS网站.即时通讯一样,网络文学也在逐渐改变着人们的互联网生活. 网络文学的异军突起,商业化的脚步渐渐向文学逼近,评价文学的指标,也开始以点击率和人气高低论英雄.网络文学的巨头盛大文学的诞生,更加剧了网络文学市场化和商业化这一进程.7月20日,盛

文学网站找靠山,商业化大旗插到文学土地上

即便拥有较高的人气,为数众多的文学网站要靠自己的力量支撑下去也勉为其难.要使这项产业以更为商业化的方式运作.形成一个完整的产业链,投靠大公司看上去是最为便捷的选择. 7月4日,原新浪网副总编辑侯小强走马上任盛大文学有限公司CEO.这个因为掌舵新浪博客而名动天下的男人用其一贯的快语速宣布:"也许有一天,中国最伟大的动画.电影.游戏将借助这里诞生,每个有阅读能力的华人将来到这里,看到盛大文学闪烁的星光." 在相继整合了文学网站起点中文网.晋江原创网和红袖添香之后,代理游戏起家的盛大俨然文坛

网络小说成原创剧本生力军

本报记者 诸葛漪 在日前落幕的上海国际电影节上,来自盛大文学的四部网络小说成功售出改编权,标志着网络小说转化为原创剧本的努力初见端倪.如何借网络小说高涨的人气助推票房,将纸上天马行空的想象变为现实,成为话剧.影视制作人面临的一大考验. 网站每天更新3400万字 此次盛大文学售出改编权的四部网络小说分别是<鬼吹灯><庆余年><等待阿夏>和<元徵宫词>, 它们将被搬上话剧舞台.制作成电视剧和电影.目前盛大文学拥有起点中文网.晋江原创网.红袖添香网三家网站.仅起点