齐宁:搜索引擎知识-网页查重技术

  对于搜索引擎来说,重复的">网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。

  网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。

  1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。

  网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。

  1、两个页面内容格式完全相同。

  2、两个页面内容相同,但格式不同。

  3、两个页面部分内容相同并且格式相同。

  4、两个页面部分重要相同但格式不同。

  实现方法:

  网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,

  一、特征抽取。

  二、相似度计算和评价。

  三、消重。

  1.特征抽取

  我们在判断相似物的时候,一般是才能用不变的特征进行对比,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度。

  特征抽取有很多方法,我们这里主要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。

  “I-Match算法”是不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。

  “Shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。

  2.相似度计算和评价

  特征抽取完毕后,就需要进行特征对比,因网页查重第二步就是相似度计算和评价。

  I-Match算法的特征只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些关键特征,即一篇文章中特别高和特别低频的词汇往往不能反应这篇文章的本质。因此通过文档中去掉高频和低频词汇,并且计算出这篇文档的唯一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可得到地址值。),那些Hash值相同的文档就是重复的。

  Shingle算法是抽取多个特征进行比较,所以处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard 系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。

  3.消重

  对于删除重复内容,搜索引擎考虑到众多收录因素,所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。

  网页查重工作是系统中不可缺少的,删除了重复的页面,所以搜索引擎的其他环节也会减少很多不必要的麻烦,节省了索引存储空间、减少了查询成本、提高了PageRank计算效率。方便了搜索引擎用户。

  本文首发 齐宁网络营销策划 www.qi-ning.com转载请注明作者信息。谢谢!

  齐宁 MSN: i@qining.org

时间: 2024-11-10 00:20:56

齐宁:搜索引擎知识-网页查重技术的相关文章

推测搜索引擎对网页质量评定及处理办法

优质内容:其本质是稀缺性,稀缺性包含2个要素:1.少;2.有价值,所谓稀就是稀少的意思,缺就是大多数人都需要,也就是对大多数人来讲有价值.这种稀缺性早就了高质量内容,以上面的内容作为理论指导,我们将网页资源分为如下四类:1.优质,量少;2.优质,量大;3.劣质,量少;4.劣质,量大. 互联网网页分类 1.文章类网页,包含资讯.技术文章.软文等等 2.产品类网页,包含产品信息.产品各种属性.介绍等 3.问答类网页,包含问题.各种回答 4.图片类网页,包含各种图片 5.资源类网页,主要是软件.资料等

mysql 开发技巧之JOIN 更新和数据查重/去重_Mysql

主要涉及:JOIN .JOIN 更新.GROUP BY HAVING 数据查重/去重 1 INNER JOIN.LEFT JOIN.RIGHT JOIN.FULL JOIN(MySQL 不支持).CROSS JOIN 这是在网上找到的非常好的一篇博文,图解 join 语句: CODING HORROR-A Visual Explanation of SQL Joins 下图可以很清楚的明白,join 的数据选取范围 [][1] [1]: yun_qi_img/160725-imooc-mysql

天融信深度解析:第三代网页防篡改技术

现在,互联网已经成为信息交流.传播和存储的重要手段,网站也成为政府职能部门的重要宣传手段,在树立政府形象.宣传新政策和引导舆论等方面发挥着重要的作用.随着网络信息量增长速度的加快,网站对我们生活的影响也逐渐加大,对网站信息的安全保护也就相当重要,但也更加困难.目前互联网是一个开放性的网络,网页信息都可以在一定时间内进行查询.下载.阅读或者转载.由于网站信息复制比较容易,使用比较广泛,如果网站信息被恶意篡改并大肆传播,将会严重影响政府.公众和企业的形象.可能会造成重大的经济损失以及比较恶劣的社会影

百度杀毒4.0再创新,独创深度神经网络查杀技术

如果说去年底百度推出的"雪狼"引擎让你眼前一亮,那当看到百度杀4.0搭载自主研发的"慧眼"引擎时,会让你更振奋人心.慧眼引擎是世界上第一款将"深度学习"技术应用到病毒查杀客户端的产品,也是国内第一款应用该领先技术的PC产品.慧眼引擎为百度技术独创,其查杀能力已步入世界顶级启发式引擎之列.基于"慧眼"引擎的独创性优势,让百度杀毒4.0有望成为全球网络安全市场的一个拐点,对于中国安全市场的格局影响颇为明显. 百度杀毒4.0再创新,

PR值 ,也就是PageRank,网页的级别技术

PR值,也就是PageRank,网页的级别技术.取自Google的创始人Larry Page,它是Google排名运算法则(排名公式)的一部分,用来标识网页的等级/重要性.级别从0到10级,10级为满分.PR值越高说明该网页越受欢迎(越重要).例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要). 在每一天的过期删除域名当中有相当一大批域名是之前已经建过站的,很多都是有PR值得域名,而也不乏一大批PR值达到4以及以上的域名.而爱名网过

瑞星2012五大查杀技术盘点 尽维护电脑职责

瑞星2012版以瑞星最新研发的变频杀毒引擎为核心,通过变频技术使电脑得到安全保证的同时,又大大降低资源占用,让电脑更加轻便. 此外,瑞星2012版还采用了"云查杀".高性能反病毒虚拟机.高性能木马病毒检测技术和启发式病毒检测技术.以上五种杀毒技术能够解 决用户在网购.网游.微博.办公时临的各种安全问题,通过友善易用的界面和更小的资源占用为用户提供全新安全软件体验.下面,笔者将详细介绍瑞星2012 的这5种高效杀毒技术. 瑞星2012维护电脑安全 5大查杀技术盘点 瑞星变频杀毒技术 很多

有没有文本查重软件,并支持用户自己建立自己的比较数据库

问题描述 有没有文本查重软件,并支持用户自己建立自己的比较数据库 想对文本进行查重,比较相似度,比较库不用网上提供的库,用自己建立的文本数据库比较.哪位大神接触过类似的软件请告知,谢谢! 查重软件可以建自己的数据库进行比较 解决方案 像百度,谷歌之类 像vss,tfs之类

link环境下使用codefirst技术制作《网盘软件》,请问网盘和网页接口对接技术怎么实现?

问题描述 link环境下使用codefirst技术制作<网盘软件>,请问网盘和网页接口对接技术怎么实现? link环境下使用codefirst技术制作<网盘软件>,请问网盘和网页接口对接技术怎么实现? 解决方案 http://www.cnblogs.com/lori/p/4045413.html 解决方案二: 可以参考python,https://github.com/LiuLang/bcloud

论文查重遭滥用

"昨天降到15%,今天终于到10%了,明天尽量搞到8%,在最后提交论文前,再花100元上知网查一下,最后不超过10%,肯定就可以过了."李继睿(化名)"啪"地敲了下电脑的回车键,心里很开心. 李继睿是上海东北片某高校金融系2011级的硕士研究生.半个月以后,他就要进行毕业论文答辩.为了可以过关,在淘宝上李继睿花了近200元购买论文检测服务,让论文的引用比例得到精确计算.和李继睿一样的大学生很多,淘宝上出售该软件最多的一家店铺,在一个月内的交易量竟有两三百万次. 近日