搜索引擎页面去重算法分析之I-Match算法

　　互联网中存在了大量的重复页面，据统计表明近似重复页面的数量占据网站总数量的29%，而完全重复页面占据了22%。这些重复的页面对搜索引擎来说占据了很多的资源，因此搜索引擎对页面的去重也是搜索引擎中很重要的一个算法。因此今天就跟大家分析下搜索引擎页面去重算法-I-Match算法。

　　对于I-Match算法来说主要是根据大规模的文本集合进行统计，对于文本中出现的所有单词，按照单词的IDF(逆文本词频因子)来进行由高到低的排序，除去得分最高和得分最低的单词，保留剩下的单词最为特征词典。这一步骤主要是删除文本中无关的关键词，保留重要关键词。下面是I-Match流程示意图：

　　I-Match流程示意图

　　获得全局特征词典之后，对需要去重的页面，扫描下就能获得该页面上出现的所有单词，对于这些单词根据特征词典过滤：保留在特征词典上出现的单词，用来表达文档的主要内容，删除没有在特征词典中出现的内容。提取出对应的特征词之后在利用哈希函数对特征词汇进行哈希计算，获得的数值就是该文档的文本指纹。

　　所有文档都统计完之后如果想查看两篇文档是否重复只需要查看文档的文本指纹是否近似，如果近似则表示两篇文档重复。这样的比对方式很直观而且效率也很高，去重效果比较明显。

　　我们seo在做文章伪原创的时候经常会把文章的词语和段落调换位置，以此想欺骗搜索引擎认为这是一篇原创的文章，但是I-Match对文档之间的单词顺序并不敏感。如果两篇文章中包含的单词一样仅仅是调换了单词的位置，那么I-Match算法还是将两篇文章认为是重复文章。

　　但是这个算法还是有很多问题存在。1，容易出现误判。尤其是面对短文本的时候，短文本本身单词比较少，经过特征词典过滤之后只保留很少的特证词，这样容易把两篇原本不重复的文档误认为重复，这个对短文档来说情况比较严重。2.稳定性不好，对文档修改敏感。假如对文档A做出一点小修改后生成文档B，那么这个算法很可能判断出两篇文档为不重复文档。例如：我们在文档A中加入一个单词H，生成文档B。I-Match算法在进行计算的时候，两篇文章仅仅相差一个单词H，如果单词H不再特征词典中那么两篇文章的特证词相同即判定为重复文档，但是会出现这种情况，单词H出现在特征词典中，那么文本B比文档A多出一个特征，该算法很可能就会判定两篇文档不重复。这就是I-Match最大的一个问题。

　　基于I-Match出现的这种问题，有人对该算法进行了改进。原算法对文档的改变非常敏感，主要是因为对单一特征词典的过度依赖，改进后的I-Match就是减少对特征词典的依赖性。可以采用多个特征词典，只要每个特征词典大体相近就可以忽略细小的差别。

　　改变后的I-Match算法主要是：类似I-Match原始算法，形成一个特征词典，为了和其他词典相区别可以成为主特征词典;然后根据主特征词典衍生出若干小的辅助特征词典。为了保证特征词典的主体相同，可以从主特征词典中随机删除若干词典项然后生成一个新的特征词典，这个特征词典就叫做辅助特征词典，重复若干次数后就可以获得若干辅助特征词典。当两篇文档进行对比的时候可以对主特征词典和辅助特征词典一起比对，只要保证每个特征词典的大体内容相同，忽略细小差异就能判定文档是否重复。下图是I-Match改进后的示意图：

　　I-Match算法改进

　　上图演示中有两个辅助特征词典，主特征词典抛弃了特征5和特征6形成辅助特征词典1，主特征词典抛弃了特征2和特征3形成了辅助特征词典2。并且根据三个特征词典分别形成了文本指纹。如果两篇文档有两个指纹信息相同那么即可判定两篇文档重复。

　　改进后的I-Match算法大大提高了文档去重的成功率，增加了算法的稳定性。

　　对SEO启发：传统的伪原创文章，对一篇文章进行简单的修改，首尾做一些小的变动，然后把中间段落调整顺序，这个对搜索引擎来说都是没有意义的，还是可以判断出两篇文章是否重复。因为我们对于文章的建设还是要原创，或者对原文章进行比较大的改动，使两篇文章的特征词典发生改变。

　　词语解释：

　　IDF 逆文档词频因子：衡量一个词普遍重要度的衡量因子，某一特定词语的IDF，可用总文件数目除以含有该词语文档数目，将得到的商取对数得到。

　　表示文档总数 n表示含有词条k的文档数量。

　　本文由 http://www.youzu.com 供稿，转载请保留链接谢谢!

时间： 2024-10-07 15:57:38

搜索引擎页面去重算法分析之I-Match算法的相关文章

搜索引擎网页去重算法解析

seo优化培训:搜索引擎网页去重算法解析以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下: 相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的. 即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的! 搜索爬虫抓取会产生网页重复的类型: 1.多个URL地址指向同一网页以及镜像站点如:www.sina.c

搜索引擎页面设计你怎么看

搜索引擎这个产品在中国互联网的浪潮中起到了不可替代的作用,无论是google,百度,yahoo,还是后来的soso,搜狗等等.随着搜索对信息索取的渠道越来越重要,搜索的页面设计也越来越值得关注.毕竟用户的上网的操作能力与互联网素质在不断的提高,各方面的普及也增加产品设计人员压力,不断的瘦身,增加专业服务强度. 前几天在知乎上了问了关于百度,google页面设计简洁是基于什么角度考虑的问题.基本上答案关于历史因素和哲学因素的之外,大家的回答基本上和我预先的想法一样. 我当时所想到就是搜索引擎页面设

根据搜索引擎网页去重原理来做seo

根据搜索引擎网页去重原理来做seo 01.网页为何要去重? 对于搜索引擎来说,希望呈现给用户的是新颖且吸引人的内容,是高质量的文章,而不是大量的"换汤不换药"的套话;我们在做SEO优化,要进行内容编辑时,难免会参考其他同类的文章,而这篇文章或许被多人采集过,这就导致了网络上的相关信息大量的重复. 如果一个网站存在大量的恶劣采集内容,不仅会影响用户体验,还会造成搜索引擎直接屏蔽该网站.之后网站上的内容,蜘蛛再难抓取了. 搜索引擎优化培训 02.搜索引擎工作原理搜索引擎是指根据一定的策略

影响百度搜索引擎优化的最新两大核心算法

中介交易 SEO诊断淘宝客云主机技术大厅众所周知,百度在今年发布了网页质量白皮书,白皮书对于seoer而言犹如一盏明灯,指引着我们网站优化的方向,3721.html">2014年是百度算法变化最为频繁的一年,很多seoer都觉得网站优化力不从心的感觉愈来愈烈,其实任何一个行业都会由萌芽到发展到鼎盛,seo也不例外,百度不断完善自身的算法只能说是搜索引擎也在不断完善自己的搜索算法,不断改进自己的用户体验,作为seoer我们应该在当下如何有效的优化网站呢?好,咱们闲话短续进入正题,今天

搜索引擎页面分析中的 javascript 处理

javascript|搜索引擎|页面在制作搜索引擎的时候.或者做页面分析及数据提取的时候,经常面临页面中存在许多javascript,而页面内容,相当一部分写入到了这些js脚本的命令中,而导致正常的DOM分析失败,无法提取所需的信息. 当然,如果这个页面模板确定,针对这个页面制作信息提取模板也不很难,每个页面人工的分析出需要提取的信息的位置,然后制作模板.可是对于general的网页搜索的话,这就不大现实了.正巧前两天和朋友讨论到这个问题,有些想法.在这里,提供两个思路,供大家参考. 1.做一

搜索引擎对于原创处理细节以及在算法所占比重实验

白帽SEO,无非就是一个长期观察.针对实验.提练方法的过程,并没有什么深不可测的理论.这篇文章就是有关不同搜索引擎针对原创内容的处理细节以及在其算法所占比重的小实验.可以让你了解到如何观察搜索引擎以及如何有针对性进行网站实验. 谈到原创内容,对于网站优化的重要性不用多讲,在任何一篇有关SEO的文章都会提到,并都会强调原创内容对于网站优化的重要性.但是很少有文章详细的描述不同搜索引擎对于原创内容的态度有什么不同.据我观察,其实不同搜索引擎对于原创内容的处理细节是完全不同,在其算法中所占比重也大

搜索引擎常用的三种网站排序算法

搜索引擎如何对互联网上那么多的网站进行合适的排名?想必做站长的都想知道这一点,这是通过一套非常繁琐复杂的算法计算出来的,具体的算法想必没有几个人知道,但是最常用的三种算法还是需要大家去了解一下的. 1.词频位置加权排序算法:顾名思义是说从整个网站上的文字的位置上与出现的次数进行排序,先来说一下位置,不同的网站关键词在内容里出现与在标题里面出现时差别非常大的,搜索引擎认为标题能表现出一个网站是干什么的,如果标题里面出现了关键词要远比文章里面出现关键词重要的多的多.这就是现在大家都知道一个网站的标题

互联网搜索引擎页面价值在哪里

搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求.多数时候,通过查询返回的网页结果,这些需求被满足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值.那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判断页面的价值呢?本文将逐一回答这些问题. 一. 什么页面价值. 前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值.那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产

求让页面自动生成关键字跟描述算法的思路

问题描述我想让页面根据页面本身拥有的内容,自动生成Keywords和Description,算法可以自己写,但是不知道怎么去写.求大侠们给我说下如何去实现的思路解决方案解决方案二:自动生成Keywords和Description也得有个生成条件吧?生成哪些.?你得给关键字定一个约束.用这个条件来生成.解决方案三:自动生成会很烂的,看看QQ日志生成的关键字有多烂

猜你喜欢

常用CSS样式

css 按钮样式*/.ButtonCss {}{ font-family: "Tahoma", "宋体"; font-size:9pt; color ...

在Dreamweaver8.0.2中为插入的Flash添加透明或其他参数

dreamweaver|dreamweaver8|插入|透明 Dreamweaver升级到8.0.2后,插入Flash时的代码会有所改变,这是Macromedia为解决IE中的Flash会出现控件激活 ...

针对社交网站优化内容优化内容的重要性

网络上内容为王使得人们优化网站内容正确最大流量,内容优化也成了针对搜索引擎爬虫的优化的重要组成部分.随着社交网站的兴起,为了更好的分享和交流,内容优化也随之展开. Marie-Lynn Richard ...

SPL3.0正式发布！支持多种数据库访问哦

访问|数据|数据库 SPL 3.0正式发布,升级说明经过一段时间的修改,SPL终于升到3.0了,之所要升到3.0,主要是因为增加了两种连接方式:ODP.NET与ODBC ODP.NET极大了增强了S ...

用VB.NET和Excel排生产计划

access编程打开其他数据库中的窗体

简述:如何编程打开其他数据库中的窗体? 问题: 如何编程打开其他数据库中的窗体,使用完毕后退回? 我新建了一个数据库,里面只有一个Form,我想在Form上添加几个按钮,每个按钮上对应一个Click事 ...

在Packet Tracer 5.3中配置语音网络

1.测试拓扑: 参照:http://www.clnchina.com.cn/associate_certs/2012/0823/21890.shtml 2.基本配置: A.R1: interface ...

用ASP.NET 2.0主题和皮肤实现网站美化

主题和外观是ASP.NET 2.0 中的新增功能, 使用 ASP.NET 2.0 的"主题和外观"功能,可以将样式和布局信息分解为单独的文件组,统称为"主题". ...

fckeditor配置方法

如何安装? 1.下载最新版的FCKEDITOR 2.解压缩到你的站点根文件夹中名为FCKEDITOR的文件夹中(名称必须为FCKEDITOR,因为配置文件中已经使用此名称来标示出FCKEDITOR的位 ...

JSP+ MySQL中文乱码问题post提交乱码解决方案

当提交的数据中含有中文(比如变量姓名的值为中文)时,mysql_insert.jsp页面上显示新增的那条记录中的相应中文(姓名的值)乱码写了两个jsp页面index.jsp和mysql_inse ...

Linux内核中的文件描述符

Kernel version:2.6.14 CPU architecture:ARM920T 作为文件的使用者,进程理所当然的要将所使用的文件记录于自己的控制块中,也就是task_struct.另外, ...

win7系统电脑闹钟怎么设置?

win7系统电脑闹钟怎么设置? 1.点击开始菜单,依次点击[所有程序]-[附件]-[系统工具],然后打开"任务计划程序"; 2.在左侧"任务计划程 ...

Windows 2003服务器IIS站点安全性和稳定性

今天我讲更深入一些,谈谈网站安全性和稳定性.对于很多接触过Linux和Windows的朋友,对比Linux的apache来说,应该很清楚IIS是很不稳定了.什么死循环.堆栈溢出等问题一出现IIS就 ...

win8系统如何设置关闭盖子不进入待机

很多用户都知道笔记本盖子开启和关闭都夹杂一些功能,但是很多用户不习惯这些功能,甚至不希望在开启笔记本盖子的时候,或者关闭笔记本盖子的他有任何的操作.小编就介绍win8系统下设置笔记本盖子关闭与开启 ...

电脑鼠标不能拖动文件的原因及解决办法

在电脑过程中,偶尔会出现鼠标不能拖动文件情况的,鼠标拖动文件到其它地方,duang一下又弹回原位.今天小编就对鼠标不能拖动文件的原因作出解析,同时给大家分享其解决方法. 方法一.用户尝试连接按es ...

新浪微博什么情况下无法对Ta进行悄悄关注?

下面的情况将无法对Ta进行悄悄关注: 1.被拉黑:在被对方拉黑的情况下,无法对其进行悄悄关注. 2.拉黑:在已将对方拉黑的情况下,无法对其进行悄悄关注. 3.你的悄悄关注达到10人的上限时,需取消1个 ...

清理DBA_DATAPUMP_JOBS中的孤立数据泵作业

今天在重构数据库时(将表空间中的表.索引转移到其它表空间)时,发现有两个奇怪的对象SYS_EXPORT_FULL_01. SYS_EXPORT_FULL_02搜索了一下,发现这个可能是EXPDP导出 ...

sql-ORACLE关于WEB程序SQL跟踪问题

问题描述 ORACLE关于WEB程序SQL跟踪问题想研究一下公司WEB程序,了解一下业务,但是TOAD FOR ORACLE跟踪不出来后台语句是如何执行的,想请教一下,还有什么办法能查看后台SQL语 ...

填充数据到word模板中

昨天写了一篇博客,是导出word模板的. 今天来说一下如何填充数据到模板中. 先上图,合同: 需要在指定需要填充数据的位置,添加标识,这只是初步的标识, 然后,另存为xml格式,会发现,这些标识,可能 ...

sk buff-sk_buff:源IP/mac 和目标ip/mac 调换，我这么做对么

问题描述 sk_buff:源IP/mac 和目标ip/mac 调换,我这么做对么 /* mac layer /struct ethhdr *eth *temp_eth;eth = eth_hdr(sk ...

[LeetCode]201.Bitwise AND of Numbers Range

题目 Given a range [m, n] where 0 <= m <= n <= 2147483647, return the bitwise AND of all numb ...

求mac版的IBM Notes 9.0.1 Social Edition软件

问题描述我需要一份MAC版的IBMNotes9.0.1SocialEdition软件,可是没有IBM的账号无法下载啊,谁能提供一份拷贝呢?谢谢. 解决方案本帖最后由 iamdohero 于 201 ...

javascript-JS正则匹配首尾为中括号的一段任意字符，需要匹配中括号本身，该如何写？

问题描述 JS正则匹配首尾为中括号的一段任意字符,需要匹配中括号本身,该如何写? 问题描述:在一段文本里,匹配" [XXXX] "然后把 "[XXXX] "替换 ...

卷土重来未可知：Windows开始菜单二十年之历史浮沉

微软的"开始"菜单是个了不起的发明.每当人们想起Windows系统,或者微软时,总会第一个相当它.如今,这个看似简单的"开始"菜单已经诞生超过20年.起初,开始 ...

软件定义网络：为什么青的云彩会下雨？

说到软件定义网络,市场上的雷声大雨点小. 所谓雷声大,供应商很积极,博科.思科.贝尔.VMware NSX,我接触了很多软件定义存储的产品和解决方案:所谓雨点小,就是看到用户案例不多.为什么会出现这样 ...

针对不同需求，蓝海讯通提供两种产品和服务交付模式

实际上,针对企业用户在应用性能管理解决方案部署和交付模式上的不同需求,蓝海讯通提供了两种产品和服务交付模式:传统的软件许可证模式(blueware)和基于云计算的SaaS模式(OneAPM).blue ...

非计算机专业出身，想自学C#，有些问题想问问大家

问题描述 1本人日后准备往unity3d发展,想问问应该学习C#的哪一方面知识呢?20编程基础,应该从哪方面入手呢?3应该以一个什么态度来学习呢?望解答谢谢解决方案解决方案二:自己顶一下..... ...

谷歌收购人工智能公司DeepMind？

1月27日上午,谷歌收购了一家名为DeepMind的人工智能初创公司,谷歌CEO拉里·佩奇亲自负责此交易,但具体交易金额尚不得而知. 我们从仅仅一页的DeepMind官网中 ...

java图形界面弄最小公倍数，代码写出来了，没语法错误，但为什么得到的结果永远都是0

问题描述 importjava.awt.*;importjava.awt.event.*;importjavax.swing.*;publicclassslfkjdsdfsaf{publicstati ...

Search Engine Friendly的URL设计-搜索引擎技术

此外随着互联网上的内容以惊人速度的增长也越来越突出了搜索引擎的重要性,如果网站想更好地被搜索引擎收录,网站设计除了面向用户友好(User Friendly)外,搜索引擎友好(Search Engine ...

热搜