石榴算法—低质量页面终结者:2013年5月17日下午,百度网页搜索反作弊团队在百度站长平台发布公告称:将于一星期后正式推出新的算法“石榴算法”。新算法前期将重点整顿含有大量妨碍用户正常浏览的恶劣广告的页面
那么,“石榴算法”中,百度究竟是如何判断网页质量呢?网上较多文章对此发表观点,归纳有以下几点:
感兴趣的受众群大小
该页面的稀缺程度(可替代性)
该页面是否有弹窗
该页面广告的多少
由上可见,目前我们的研究重点大部分集中在对网页的页面价值的判断上,缺乏对搜索用户交互行为的研究与分析。
今天,我们尝试从搜索用户交互行为的角度出发,猜测百度如何判断文章质量。
对于安装了百度统计的用户,百度可以根据跳出率、退出率、页面停留时间几个关键指标,很容易对网页质量加以判断。
然而,对大部分没有安装百度统计的搜索用户,百度是不可能跟踪这些关键指标的,百度通过迂回战术从侧面分析关键词的匹配度,匹配度越高,表明文章质量度越高。
百度如何通过搜索行为判断文章质量?我以为,主要根据以下2点:
一、通过对搜索结果的二次点击率(或多次)进行判断
二次点击率是指:当用户点击某结果后,(因不满意结果)产生第二次点击(或多次)的比率
如果某页面二次点击率非常低,百度搜索引擎有理由相信,此网页的关键词匹配度非常高,同时文章的质量也有保证。因为,众多用户的行为已经为网页投了关键的一票。
二次点击率是相对上一条点击而言。百度搜索默认显示10条搜索结果,我们假设一个这样的情景:大量用户点击到第6条结果,就不再点击其他结果,从常理来说,第6条结果的网页,是最匹配的,那么质量度自然较高。如果这种数据表现达到一定程度,百度很可能会把它的排序提高到前面几位(提高排序权重)。
二、通过两次点击之前花费的间隔时间进行判断
假设百度搜索某个关键词,并按分别顺序点击了A/B/C 3个结果。如下图:
根据普通用户习惯,他会先打开并查看A网页,可能结果不满意或信息量不足够,他又回到百度搜索界面,点击了B网页,阅读完B网页后,他又打开C网页。
我们可以看到,A->B 时间间隔, B->C 时间间隔 是百度可以获取的信息。 通过海量用户的间隔时间的横向比较分析,百度足够建立这样一个关键指标。
假设大量数据显示,A->B 时间间隔为30秒,B->C 时间间隔为 50秒,那么搜索引擎认为,B的质量高于A。 这就是间隔时间判断的一个重要逻辑。
以上是我们对“百度如何判断网页质量”猜测的一些逻辑与思路,实际上百度搜索的算法模型肯定更复杂庞大。尤其现在百度产品已经涉及方方面面,百度统计、百度分享还有最近的百度浏览器,相信百度会把这几方面的数据综合利用起来,能够更精准的分析判断网页质量。本文原创:新华书店 http://www.gg1994.com 转载请注明出处!