分析搜索引擎如何首先抓取最重要的网页？

　　搜索引擎面对海量的网页，他们并不是平行的抓取每一个网页，因为无论搜索引擎数据库怎么扩张，都是无法跟上网页的增长速度，搜索引擎会优先抓取最重要的网页，一方面节省数据库，一方面对普通的用户也是有帮助的，因为，对用户来说，他们并不需要海量的结果，只需要最重要的结果。所以说一个好的搜集策略是优先搜集重要的网页，以便能够在最短的时间内把最重要的网页抓取过来。

　　那么搜索引擎如何首先抓取最重要的网页?

　　通过对海量的网页特征分析，搜索引擎认为重要的网页有如下的基本特征，虽然不一定完全准确，但是大多数时候确实是这样的：

　　1) 网页被其他的网页链接的特点，如果被链接的次数多或者被重要的网页所链接，则是很重要的网页;

　　2) 某网页的父网页被链接的次数多或者被重要的网页所链接，比如一个网页是一个网站的内页，但是其首页被链接的次数多，而首页也链接了这个网页，则说明这个网页也比较重要;

　　3) 网页的内容被转载传播的广。

　　4) 网页的目录深度小，易于用户浏览到。这里定义“URL 目录深度”为：网页 URL 中除去域名部分的目录层次，即URL 为http://www.domain.com，则目录深度为 0;如果是 http://www.domain.com/cs，则目录深度为 1，一次类推。需要说明的是，URL 目录深度小的网页并非总是重要的，目录深度大的网页也并非全不重要，有些学术论文的网页 URL 就有很长的目录深度。多数重要度高的网页会同时具有上述 4 个特征。

　　5)优先收集网站首页，并赋予首页高的权重值。网站数目远小于网页数，并且重要的网页也必然是从这些网站首页链接过去的，因此搜集工作应当优先获得尽可能多的网站首页。

　　这里问题就随之出现，搜索引擎开始抓取网页的时候，可能既不知道网页被链接的情况也不知道被转载的情况，换句话说，最开始的时候他并不能知道前面3项的特征，这些因素只能在获得网页或几乎所有的 Web 链接结构之后才能够知道。那么怎么解决这个问题呢?那就是特征4和5是可以在抓取的时候就能知道的，只有特征 4 是不需要知道网页的内容(没有抓取网页之前)就可以确定某个 URL 是否符合“重要”的标准，而且网页 URL 目录深度的计算就是对字符串的处理，统计结果表明一般的 URL 长度都小于 256 个字符，这使得 URL 目录深度的判别易于实现。所以对于搜集策略的确定，特征 4 和5是最值得考虑的指导因素。

　　但是，特征 4 和5具有局限性，因为链接的深度并不能完全表明这个网页的重要程度。那么怎么解决这个问题?搜索引擎采用如下的办法：

　　1) URL 权值的设定：根据 URL 的目录深度来定，深度是多少，权值就减少多少，权值最小为零。

　　2) 设定 URL 初始权值为一个固定的数值。

　　3) URL 中出现字符”/”，”?” ，或”&” 1 次, 则权值减一个数值，出

　　现”search”，”proxy”，或”gate” 1 次，则权值减一个数值;最多减到零。(包含”?”，

　　或”&” 的URL 是带参数的形式，需要经过被请求方程序服务获得网页，不是搜索引擎系统侧重的静态网页，因此权值相应降低。包含”search”，”proxy”，或”gate” ，说明该网页极大可能是搜索引擎中检索的结果页面，代理页面，因此要降低权值)。

　　4) 选择未访问 URL 的策略。因为权值小不一定说明不重要，所以有必要

　　给一定的机会搜集权值小的未访问 URL 。选择未访问 URL 的策略可以采用轮流的方法进行，一次按照权值排序取，一次随机取;或者 N次随机选取。

　　当搜索引擎抓取了大量的网页的时候，然后进入到一个阶段，对网页进行前面3个特征的判读，再通过大量的算法判断网页的质量，然后给予相对的排名。

　　本文由51荷叶茶http://www.51heyecha.com/站长原创提供

时间： 2025-01-30 12:59:35

分析搜索引擎如何首先抓取最重要的网页？的相关文章

搜索引擎爬虫优先抓取哪些网页

网站的整体流量主要取决于网站页面的整体收录.网站页面的整体排名以及网站页面的整体点击率,这三个因素也是有先后顺序的,排名排一位的就是整体收录了,那么整体收录又是由哪些决定的呢?首先要想被收录,肯定页面要被搜索引擎抓取吧,没有抓取,也就不可能有收录.所以我们在优化收录的时候,一定要想办法让搜索引擎的爬虫程序去尽量抓取更多的页面,那么对于搜索引擎来说,它的源也是有限的,而且由于各种限制,它也只能抓取互联网上所有网页的一部分,而在抓取的这些页面中,它索引的也只是一部分,搜索引擎的蜘蛛程序会优先抓取哪些

url-使用Python抓取下一页网页数据

问题描述使用Python抓取下一页网页数据怎么抓取一个无论怎么跳转其url都不变的网页?通过Requests和BeautifulSoup能实现吗? http://www.szairport.com/frontapp/HbxxServlet?iscookie=C 另外其下一页的跳转指令是js写的,我该怎么通过这条指令跳转下一页,命令如下: [<a href="javascript:void(0);" onclick="page.moveNext()">

javascript-python爬虫如何抓取包含JavaScript的网页中的信息

问题描述 python爬虫如何抓取包含JavaScript的网页中的信息这里本科生一枚..做本研要求抓取一些数据碰到了一些问题求指教> <我想要抓取汽车之家上关于供应商的一些数据,然后在车型详情页里找到了关于供应商的框架源代码如下(只截取有用部分):<br> //属性<br> document.domain = "autohome.com.cn";<br> var page=1;<br> var parameters = {

正则-java如何抓取不同网站不同网页的内容

问题描述 java如何抓取不同网站不同网页的内容请教大神们如何用java抓取不同网页(不同网站)相同属性的内容,如图: 用同一个java程序或正则一次性抓取图片上标注的内容(注:有很多这样的网页). 解决方案内容一般在table或者div中,找出特征匹配,截取字符串就行了解决方案二: 对于HTML标签,最好用XML解析类库,通过XPATH等方式来查找,这样简单,也不会容易出错,正则表达式处理这个比较麻烦,而且容易出错解决方案三: 应该用到了,网络请求协议http!

请问数据抓取系统(spider)搜集网页信息是从一些种子URL开始，那么这些种子URL怎样获取的？

问题描述请问数据抓取系统(spider)搜集网页信息是从一些种子URL开始,那么这些种子URL怎样获取的? 在很多的SEO教程中谈到,数据抓取系统(spider)会从一些种子URL开始进行搜索网页, 那么这些种子URL从哪里可以获取? 解决方案这个种子应该是自己设定的.之后爬虫根据这个种子url爬其他资源

搜索引擎如何去抓取网页

搜索引擎看似简单的抓取-入库-查询工作,但其中各个环节暗含的算法却十分复杂.搜索引擎抓取页面工作靠蜘蛛(Spider)来完成,抓取动作很容易实现,但是抓取哪些页面,优先抓取哪些页面却需要算法来决定,下面介绍几个抓取算法: 1.宽度优先抓取策略: 我们都知道,大部分网站都是按照树状图来完成页面分布的,那么在一个树状图的链接结构中,哪些页面会被优先抓取呢?为什么要优先抓取这些页面呢?宽度优先抓取策略就是按照树状图结构,优先抓取同级链接,待同级链接抓取完成后,再抓取下一级链接.如下图: 大家可以发

从百度图片筛选条件分析百度抓取收录图片哪些信息

刚才在网上看到一则新闻,讲360的图片搜索功能beta版正式上线,于是就去使用了一下.发现306图片搜索目前支持的检索条件仅局限于图片的尺寸大小,这个功能相对百度图片搜索的众多精准设置项,还尚显单一.百度之所以能够提供这么多的图片检索条件,说明它已经建立了更为全面的的图片信息索引库,那么百度在收录图片的时候,都会抓取图片哪些信息以方便网友的精准搜索呢? 我们都知道,目前图片搜索的主要依据是图片的alt和title的定位文字,也就是说,我们在搜索图片的时候,只有当我们搜索的关键词与图片的定位文字相

卢松松：搜索引擎如何抓取你的网页

搜索引擎优化(SEO)是搜索引擎有好的收录网页的过程,适当的SEO有利于蜘蛛爬行你的网站,使你的内容符合搜索引擎算法,以便确认它与关键词高度相关. 优化的目的就是使网页的内容便于蜘蛛理解,下面我就以百度新收录的一篇内容来进行说明,我以一个完整标题进行搜索,其目的是能反映出更多关键词在百度自然搜索的结果页面,能更好的说明搜索引擎是如何抓取你的网页的. (图一:百度最常见的自然搜索结果列表) SEOer通常关注的是网页主体部分的自然搜索结果,百度和Google搜索结果页面大致相同,搜索结果页面通

搜索引擎的工作方式和基本的抓取原理你了解吗

摘要: 最近在看一本书,发现当我们不实践直接看原理是枯燥无味的,而实践过后反过来看原理,会觉得很多道理,很多感悟.就拿我自己做反面教材,说我是搜索引擎优化工作者,我对搜索最近在看一本书,发现当我们不实践直接看原理是枯燥无味的,而实践过后反过来看原理,会觉得很多道理,很多感悟.就拿我自己做反面教材,说我是搜索引擎优化工作者,我对搜索引擎的工作方式和基本的抓取原理,更新策略都不懂.那么你呢?下面就分享下我的读书笔记,仅当新人扫盲. 在介绍搜索引擎爬虫的之前,首先了解爬虫把网页的分类,四种: 1,已

猜你喜欢

CGI安全漏洞资料速查 v1.0(转一)

cgi|安全|安全漏洞 ◆ CGI安全漏洞资料速查 v1.0 日期:2000-8-15 #################################################### ...

Nice用户手册（三）

第三章类与接口类声明数据成员一个类最主要的组件使它的数据成员列表.数据成员是附属于每一个类实例的变量,它有类型.名称,可以有初始值.数据成员的声明语法如下: type field-name[ ...

一个个人网页自动化生成系统

网页当你希望用本系统创建你的个人主页之前,笔者相信你已经配置好了相关的阿帕奇服务器,MYSQL数据库,以及php. 接着启动你的mysql数据库,建立一个名为study的数据库,建立一个名为wenz ...

用ASP开发一个在线考试程序（三）

程序|在线 Sendregister.asp 这一页从register.asp 中取得表单域的内容,将它们插入数据库中.要注意用户名必须是唯一的.所以,首先查询要验证输入的用户名是否已经存在.如果是的 ...

ASP.NET Framework深度历险(1)

ASP.NET Framework深度历险(1) Author:uestc95 E-mail:uestc95@263.net 记得前一段时间有本不错的书叫Delphi深度历险,写得不错,我也 ...

sqlserver数据库移动数据库路径的脚本示例

前段时间做过这么一件事情,把原本放在c盘的所有数据库(除了sql server系统文件外)文件Move到D盘,主要是为了方便后续管理以及减少磁盘I/O阻塞(C,D是2个独立磁盘).脚本需输 ...

excel中的cos函数

一.cos函数的用法函数功能:返回给定角度的余弦值.这和数学上的知识是一致的. 函数语法:COS(number) Number 为需要求余弦的角度,以弧度表示. 参数说明: 如果参数的单位是度,则可 ...

一组时尚的鞋帽服饰类网页设计

服饰鞋帽向来是时尚必争之地,除产品本身的宣传是核心竞争力,在用户还未接触到实体之前,通过网站宣传往往是给新用户留下一个好印象的开始. 宣传产品的网站,充满美感的大照片和酷炫的网页特效现在是必不可少 ...

如何自定义Win7文件鼠标停留时的内容注释

一.先是在桌面空白位置处创建一个文件夹.然后再给这个文件夹重命名.接着重新打开记事本,输入下列代码. [.ShellClassInfo] InfoTip="软件文" 操作如下图 ...

winsock-如何在本地测试Server/Client程序，UDP和TCP协议，本地需要在命令行测试还是在哪里测试

问题描述如何在本地测试Server/Client程序,UDP和TCP协议,本地需要在命令行测试还是在哪里测试写好的程序怎么测试通信是否正常,如何在本地测试Server/Client程序,UDP和T ...

海量实时计算+OLTP+OLAP DB设计 - 阿里云(RDS、HybridDB) for PostgreSQL最佳实践 - 泛电网系统应用

标签 PostgreSQL , 国家电网 , 电表 , 余额 , 流式计算 , 状态监测 , 上下文相关背景电网系统是一个关系民生,又非常典型的传统系统,虽然传统,量可不小.在互联网化(物联网化) ...

JavaScript中this关键词的使用技巧、工作原理以及注意事项_javascript技巧

要根据this 所在的位置来理解它,情况大概可以分为3种: 1.在函数中:this 通常是一个隐含的参数. 2.在函数外(顶级作用域中):在浏览器中this 指的是全局对象:在Node.js中指的是模 ...

SpringBoot开发案例之整合mail发送服务

上个月做过这样一篇分享笔记,微服务架构实践之邮件通知系统改造. 当时用的是开源的第三方插件mail和Thymeleaf做发送服务,显然这样子你需要配置一些东西,麻烦!!!接触了Spring Boot以 ...

浅谈Greenplum的Boolean类型与Text类型之间的转换

在Greenplum或者Deepgreen中,如果我们想直接把Boolean类型转化为Text,那么可能会让你失望,因为他们不支持这种直接转化,但是可以通过UDF的方式实现,下面来简单看一下这个过程. ...

AutoPOL for Windows这个软件安装了不能用，

问题描述 AutoPOL for Windows这个软件安装了不能用, 安装好以后找不到这个CRACK.EXE文件,也没有桌面图标.有没有那个大神能教一下怎么安装啊解决方案 System Infor ...

Windows Phone 8初学者开发—第14部分：在运行时绑定到真实的数据

原文 Windows Phone 8初学者开发-第14部分:在运行时绑定到真实的数据第14部分:在运行时绑定到真实的数据原文地址: http://channel9.msdn.com/Series ...

疯狂比特币，七个角度谈

一.比特币的证券特征显著在中国投资者以及矿工的推动下,比特币的市场行情水涨船高,其成交价在11月19日到达历史最高点3490元人民币,仅仅过了不到24小时,11月19日,价格几乎以翻番的态势突 ...

安卓开发-ListView.setAdapter问题

问题描述 ListView.setAdapter问题 cannot make a static reference to the non-static method setAdapter(listAd ...

这两天，苏宁云商的券商小伙伴出现了一个反常迹象

截至前天,就是5月6日,16家机构对其2014年度业绩接连作出预测,平均预测净利润为-4.03亿元,平均预测摊薄每股收益为-0.0545元,最高0.2227元,最低-0.2461元. 现在Q2还没结束 ...

自己写的兼容低于PHP 5.5版本的array_column()函数_php技巧

array_column 用于获取二维数组中的元素(PHP 5.5新增函数),但我们有时候需要在低版本的PHP环境中使用- if( ! function_exists('array_column')) ...

js实现用户注册协议倒计时的方法_javascript技巧

本文实例讲述了js实现用户注册协议倒计时的方法.分享给大家供大家参考.具体实现方法如下: 复制代码代码如下: <html xmlns="http://www.w3.org/1999/ ...

.NET平台调用（P/Invoke）的问题

问题描述 C#的控制台程序需要调用一个第三方的DLL(VC6开发,名为ADAMTCP.dll),该DLL中一个函数的声明为:intADAMTCP_ReadCoil(charszIP[],WORDwID ...

Hashtable能不能作为参数传递？

问题描述 classThreadFtp{privateHashtablemyFtp=newHashtable();privateHashtableAllFileNames=newHashtable() ...

想学nokia手机的java编程，不知要用什么平台比较好，安装些什么软件?

问题描述想学nokia手机的java编程,不知要用什么平台比较好,安装些什么软件? 解决方案解决方案二:关注解决方案三:我只是对nokia感兴趣,我有本中文的s40可扩展应用程序开发Develop ...

IBM Lotus Notes 8软件预览

信息交换方式日新月异,这要求公司转变管理最重要的资产(即知识)的方式.人们越来越倾向于在网上见面,交流意见并创建协作社区.借助于电子邮件.即时消息传递和基于团队的在线电子用户环境,人们正在开发用于协同 ...

全球IP地址余量不足1成中国新网民或无IP可用

中介交易 SEO诊断淘宝客云主机技术大厅昨天,从中国互联网络信息中心(CNNIC)获悉,全球互联网IP地址刚刚突破了一个新的关键临界点,互联网数字分配机构(IANA)可分配的IPv4地址剩余量 ...

怎样动静结合才能运营好一个网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅网站运营是站长在不断的反复思考的问 ...

询问一行代码的意思

问题描述 classSqlHelper{privatestaticstringconnStr=ConfigurationManager.ConnectionStrings["dbconnSt ...

c# 等值线

问题描述编一个能读取数据画等值线的小程序一点头绪也没有求高手指点!! 解决方案解决方案二:从哪读数据,在哪画线?pic?解决方案三:编的是一个windows窗体应用程序读取电脑上的TXT文件图就画 ...

在webbrowser中显示word文档的时候如何保证文档是只读的

问题描述最近遇到的问题,客户要求在web页面上word文档的抽取内容因此编写了ActiveX,利用ActiveX来显示WORD文档,是用webbrowser来实现的,但是发现一个问题,就是webbr ...

热搜