基于用户投票的排名算法（六）贝叶斯平均

上一篇介绍了"威尔逊区间"，它解决了投票人数过少、导致结果不可信的问题。

举例来说，如果只有2个人投票，"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性，但也带来了另一个问题：排行榜前列总是那些票数最多的项目，新项目或者冷门的项目，很难有出头机会，排名可能会长期靠后。

以IMDB为例，它是世界最大的电影数据库，观众可以对每部电影投票，最低为1分，最高为10分。

系统根据投票结果，计算出每部电影的平均得分。然后，再根据平均得分，排出最受欢迎的前250名的电影。

这里就有一个问题：热门电影与冷门电影的平均得分，是否真的可比？举例来说，一部好莱坞大片有10000个观众投票，一部小成本的文艺片只有100个观众投票。这两者的投票结果，怎么比较？如果使用"威尔逊区间"，后者的得分将被大幅拉低，这样处理是否公平，能不能反映它们真正的质量？

一个合理的思路是，如果要比较两部电影的好坏，至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少，那么应该设法为它增加一些观众。

在排名页面的底部，IMDB给出了它的计算方法。

URL：http://pic1.bianceng.cn/Programming/sjjg/201410/46061.htm

- WR，加权得分（weighted rating）。

- R，该电影的用户投票的平均得分（Rating）。

- v，该电影的投票人数（votes）。

- m，排名前250名的电影的最低投票数（现在为3000）。

- C，所有电影的平均得分（现在为6.9）。

时间： 2025-01-02 04:18:13

基于用户投票的排名算法（一）Delicious和Hacker News