Social Media排序算法的四种模式

郑昀 20090905

在Social Media领域,不管是搜索结果,还是页面展示,只要不是编辑挑选的,只要是机器智能决定的,都需要以某种顺序排列。

那么,除了按时间顺序或按投票数排列外,还会有哪些有效的展示模式呢?

下面罗列我所见:

模式一、Reddit模式

Reddit的排序算法一文曾经介绍过 Reddit 会综合考虑以下因素:

  • 文章的新鲜程度;
  • 支持票数和反对票数;
  • Discoverers和Followers效应(削减Followers的投票权重)。

    图1 Reddit 排序示例

从上图可以看出,让新鲜且投票数还不足够多的文章能快速突破进入榜单,是很重要的。

从Social Media海量数据中寻找专家的五大手法中SPEAR模式认为:“专家应该是发现者,而不是趋势的跟随者。experts应该是第一批收藏和标记高质量文章的人,从而召唤起社区内其他用户的围观。用户发现优质内容越早,表明该用户专业程度越高。所以,要区分“Discoverers”和“Followers”。”Reddit 正是通过log10 的使用,使得早期的投票(即Discoverers)获得更大的权重。比如,前10票获得的权重,与11到101票所获得的权重是一样的。

如你所知,玩聚SR 在给出热门链接时也采用了同样的排序规则,我曾经给出过简化的算法

 

模式二、OneRiot PulseRank模式

实时搜索引擎 OneRiot 的 PulseRank,能够充分地把社会化因素考虑进来,做到搜索结果排序的 Socially Relevant 。

PulseRank 所考虑的因素:

  • 新鲜程度 Freshness ;
  • 域名的权威程度 Domain Authority :这个不同Team会有不同看法,到底是传统门户的域名权重更大,还是独立博客的域名更有价值。
  • 推荐者的权重 People Authority :系统要能识别推荐者是否是spammer,要能发现某些推荐者总是推荐同一个链接或者同一个域名下的链接(你总是日复一日地推荐某一个站的链接,应该降低你的权重),也要能发现某些人的推荐总能得到更大范围的“二次传播”。
  • 传播加速度 Acceleration :主要检测推荐的速率,从而区分新出现的页面和广为人知的热门页面。

当然它还考虑来自Twitter、Digg以及OneRiot Share的推荐数量。

推荐越多,排在Pulse搜索结果最前面的可能性越大;新鲜程度也影响非常大,其他因素的影响比较难以被注意到。所以这还是 Reddit模式的增强版,只不过聚合了不同Social站点的推荐数,并加了几个因子。

参考资源:

1、Ranking Algorithm for the Realtime Web: OneRiot “Pulse Rank” Update

 

模式三、digg模式

Digg 有很多技巧:

1、投票的速度:比如一篇文章最开始的半小时内能迅速收集到40~50个投票,那么是谁投的就无关紧要,这篇文章就会上首页。

2、投票用户的级别。不过Digg的《A couple updates》宣布了Top users总是伴随着行为异常和可憎,所以本因素将不断被降低。并且如果你拥有非常多的好友,那么你提交的文章就需要更多的Digg才能上首页,通常是新用户的2~3倍。

3、评论的数量,以及评分的数量。如果一篇文章有40个评论,其中20个对它评级在-4分以下,那么显然这篇文章不会上首页。

4、Bury的数量。还会考虑到Bury的类型,如重复的故事、Spam、错误的分类等。如果一篇文章在Upcoming队列中,获得了3个Bury,那么它就永远被Buried了。如果文章是在首页并且拥有1000个Diggs,那么需要大约10~15个Bury才能让它消失(消失指只能访问最终页面,任何类别的导航页都不会看到这篇文章了)。

5、投票用户的 Popular Ratio。如果10~15个Popular Ratio在70%以上的用户都投了一篇文章,那么它上首页会很容易。你可以 Digg用户页面上查到每个用户的Popular Ratio。

Digg 的算法久经考验,不断被修正,并且充分利用了它所能收集的一切信息,值得借鉴。

和 Digg 一样,Newsvine 也考虑得很全:

  • 用户的声望;
  • 用户好友的声望;
  • 评论;
  • 域名权重;
  • 浏览数和停留时间。

参考来源:

1、The Digg Algorithm - Unofficial FAQ

2、Newsvine Algorithm and potential ranking factors for exposure

 

模式四、Seeds模式

这是一种第三方应用深入某个Social Media的刺探式统计方法。事先选定一个key users集合(比如创始人以及其他核心用户,被称之为“seeds”),然后从这批用户开始扫描建立Social Graph,通过统计inbound links和好友关系,得出被扫描的social media的不同指标的排行榜,这就是Spinn3r rank所用到的手法。这种模式并不限于计算Top Users。

它所用到的两个技巧倒是经常看到:

  • 从 Approved Sources 开始扫描:一个好的算法,当然要从好源开始,Techmeme 和 玩聚SR 都是这么做的;
  • 遍历 friendship :spammers或水平不那么高的用户,要想从 seeds 这里获得连接显然是不大可能的。

 

好了,这就是我观察到的Social Media中经常出现的几种排序规则算法。如果你有补充,请留言或follow me

郑昀 北京报道 20090905

其他参考文章:

1、What is InfluenceRank?

2、ranking by semantic similarity

还推荐您阅读我的以下文章:

1、Social Media附加价值开发的四大模式

2、分析人的网络轨迹和碎片之四大模式

3、[语义]情感分析方向近况·0908

4、从Social Media海量数据中寻找专家的五大手法

时间: 2024-09-17 06:42:00

Social Media排序算法的四种模式的相关文章

旅游景区“影视营销”的四种模式

最近<变形金刚3>热映,公众在欣赏这部科幻大片的同时,对于影视植入式广告也有了更为深刻的认识.说到植入式广告,旅游景区应该算得上是早期的尝试者了. 就目前的情况看,旅游景区已经从最初默默提供拍摄外景地逐步走向更为积极主动的"影视营销".景区"影视营销"在国内目前还是比较前卫的营销手段,涌现出了几种不同的模式.以下是同程网景区营销专家对景区"影视营销"四种模式的分析. 模式一:提供拍摄地,长期捆绑热播影视剧的品牌效应 优点:运作简单,投

现代农业发展的四种模式及五点启示

中国农科院农业经济与发展研究所现代农业研究室主任蒋和平: 一. 龙头企业带动型 所谓龙头企业带动型的模式,是指由龙头企业作为现代农业开发和经营主体,本着"自愿.有偿.规范.有序"的原则,采用"公司+基地+农户"的产业化组织形式,围绕一个产业或产品,实行生产资料供应.生产加工.销售一体化经营,并通过向农民租赁土地使用权,将大量分散在千家万户农民的土地纳入到企业的经营开发活动中,形成龙头连基地.基地连农户的产业化.商品化.规模化生产经营格局.这种由龙头企业建立生产基地,

android-关于 Android的launchMode 四种模式咨询

问题描述 关于 Android的launchMode 四种模式咨询 希望实现:A页面为根Activity,其他B.C.D 页面在前台显示时按返回键后均回到A页面. 已通过重写onBackPressed()实现,想练习下通过 launchMode来实现,测试了好久一直没成功,**求大神指导下思路~**: 目前已实现情况,将B的launchMode设置为"singleTask"这样,执行 BCDB之后,按返回键可以返回A页面. 问题:不知道该怎么分别设置B.C.D的launchMode实现

Asp.net的sessionState四种模式配置方案

sessionState节点的配置 web.config关于sessionState节点的配置方案,sessionState有四种模式:off,inProc,StateServer,SqlServer. 1.off模式 从字面上就可以看出这个是关闭模式,如果当前页面不需要session的值,为了减少服务器资源,你可以去掉Session的开销. <sessionState mode="off">或者页面上 <%@ Page EnableSessionState=&quo

商业银行进军PE巧避直投禁令:四种模式介入开辟突破口

统计数据显示,近5年来,国内股权基金投资项目近6000个,而项目退出仅不到2000个,存量项目趿000个〿/p> 商业银行对经营PE业务已觊觎多年,但目前限于政策,不能直接进入私募股权投资基金市场.尽管如此,据记者了解,目前商业银行还是想尽一切办法"曲线救国".比如政策怿a href="http://news.pedaily.cn/industry/银行/" target=_blank>银行在股权投资及设立PE基金方面已有所尝试,国家开叿a href=&

Android 访问文件权限的四种模式介绍_Android

Linux文件的访问权限 * 在Android中,每一个应用是一个独立的用户 * drwxrwxrwx * 第1位:d表示文件夹,-表示文件 * 第2-4位:rwx,表示这个文件的拥有者(创建这个文件的应用)用户对该文件的权限 * r:读 * w:写 * x:执行 * 第5-7位:rwx,表示跟文件拥有者用户同组的用户对该文件的权限 * 第8-10位:rwx,表示其他用户组的用户对该文件的权限 openFileOutput的四种模式 * MODE_PRIVATE:-rw-rw---- * MOD

浅析传统企业网络营销四种模式

中介交易 SEO诊断 淘宝客 云主机 技术大厅 从门户到论坛.从博客到微博.从搜索到SNS.从播客到推客.从威客到切客--网络创新越来越快,网络新产品层出不穷,网络商机诱惑无限.SEO.博客营销.论坛营销.话题炒作.病毒营销,网络成功的神话一直不断上演,网络营销看起来是风光无限好. 于是各种跟风做网络营销的企业也是层出不穷.可是,大多数企业没有真正思索过,自己企业的业务是否适合通过网络营销来做?自己的核心竞争力在哪?自己应该通过什么方式开展网络营销,想达到什么目的?更不清楚网络营销到底能帮助自己

中国式创新:四种模式与四个心态

改革开放三十年,随着人民币升值和劳动力成本的一步步提高,从"中国制造"到"中国创造"的转型越来越急迫!中国的时代转型倚重于创新,但对于"创新"的解读,却是见仁见智.这里不妨戏说一下:中国式创新的四种模式,以及模式背后的四种心态. Ⅰ 危创新:丛林草莽心态 危创新,说白了就是违反道德底线,甚至违反法律约束的所谓"创新"--从黑社会到黄赌毒,从盗版光碟到软件外挂和劫持,从食品掺假到媒体抹黑和幕后操纵,从资历作假到知识产权盗用,处处

地方网站切入传统服务业的四种模式

谢谢PHPwind为我们提供这样的交流机会.站在这个台我有压力,为什么?因为在座的都是创业者,都是老板,我是一位http://www.aliyun.com/zixun/aggregation/1955.html">职业经理人,也就是打工者,打工者给老板讲课,聊的还是有关创业的话题,有点本末倒置了. 传统服务业存在的四个问题 今天要谈的话题是地方网站切入传统服务业的方法.我们一提电子商务,大家更多的印象是网购书.买衣服.买电视.买化妆品,事实上电子商务还有更大的一块领域在等着我们,如携程所提