用机器学习鉴定《鬼吹灯 1-4》是不是天下霸唱所写

[1] 引子

鬼吹灯是一本我很喜欢的网络小说，它帮助我度过无数个空虚寂寞孤独冷的夜晚。不但文字看了一遍，后来被青雪故事出了有声书以后我还听了一遍。

按照作者描述，鬼吹灯一共出了 8 本，写作时间是 06 年 2 月到 08 年 2 月。虽然我们都知道一个系列开头精彩、后面烂尾的可能性是极大的，可鬼吹灯前四部跟后四部的差距也太大了吧。

鬼吹灯 1（前四部）的发生在知青大时代中。那是一个蔑视一切牛鬼蛇神的时代，而各种诡异的神秘事件又发生在军队中，最不信邪的一帮人遇到了邪乎事，到底怎么办？

连我老妈读了以后，也问我「粽子」到底有没有（作者说这个完全是他创造的名词啦）。而鬼吹灯后四本的时候，整个风格就变掉了。于是就有一堆网友质疑一个没经历过知青的年轻人怎么写得如此生动，后面又出来说前四部其实是一个知青老教师写的。

对于写作「抄袭」这事，似乎有一种叫做「文体学」的研究来解决。它的思路是一个人的写作内容会经常改变，但不经意间养成的小习惯是不太会变的。

这个不经意的小习惯，就是对于副词、助词、介词的使用。

我们只要分析天下霸唱在副词、助词、介词使用的特点，就可以找到鬼吹灯前后四部是不是一个人写的了。这件事恰好是机器学习擅长的。

[2] 工作流

对于这种比较复杂的工作，实现设定一个工作流有助于自己在陷进去解决细节的时候，不至于迷失了最终解决问题的方向。

我的工作流是这样的：

收集鬼吹灯的 txt 版本，作为机器学习的基础素材；

选取汉语词典收录的常见助词、副词、介词，作为特征词；

由于这次找到的特征词都是单字，我就不用分词，直接算天下霸唱文章出现这些单字的频次；

计算每 N 万字的鬼吹灯片段出现特征字的次数，作为样本 x[i]（经过几次试验，N 选为 1 万字）；

将样本 x[i] 用 PCA 方法降到二维画图，直观感受自己的假设到底合不合理，调整 N 万字的大小和特征词的选择（降维仅用于画图，不参与模型预测）；

将 x[i] 标准化，减少异常值；

随机选 70% 的数据进行机器学习建模（用 LogisticRegression 方法）；

用剩下的 30% 数据进行预测，看准确性。

好了，下面正式开始。

[3] 选取特征词

一开始我认为老知青用字的广度可能没有现代人这么多。于是我用过最常见的 500 个汉字、2500 个汉字、次常用的 1000 个汉字来做特征，降维后画出来的图效果并不好。说明大家的用词广度上没有太大区别。

后来分别用了常用助词、介词、副词降维来作图，区分读已经比较高了。考虑到这点数据量处理的性能不是问题，我就将助词 + 介词 + 副词总共 655 个特征一起使用了。