剖析蜘蛛工作原理制定对策

摘要: 网站的收录比例往往是很多优化人员极其重视的一个指标之一,网站的收录好坏,从根本上能够决定网站的流量多少,毕竟有收录才会有排名,有排名才可能会有流量。但是网站收录是

网站的收录比例往往是很多优化人员极其重视的一个指标之一,网站的收录好坏,从根本上能够决定网站的流量多少,毕竟有收录才会有排名,有排名才可能会有流量。但是网站收录是一个困扰许多站长的难题,很多站长拼命努力做站,却发现蜘蛛并不青睐自己的网站,收录数量也寥寥无几。

当站长们苦恼网站为何不被收录时,应该去想想,究竟是谁在决定网站的收录?答案很明显,就是搜索引擎蜘蛛。既然搜索引擎蜘蛛是收录的决定者,我们就应该从蜘蛛的工作原理入手,深入去研究一下,然后抓住蜘蛛工作原理规律去制定方案对策,来实现网站的收录最大化。好了,废话不多说,下面笔者就来简单和大家讨论一下吧。

原理一:通过网站链接爬行网站内页

搜索引擎机器人之所以被称之为蜘蛛,原因就是其行为极其类似蜘蛛。蜘蛛会通过网站上的网状链接来爬行一个网站的页面,如果一个网站没有任何链接入口,那么蜘蛛将会无从下手。因此,要实现网站收录最大化,第一步工作就是要为蜘蛛提供更多的、更加紧密链接入口。最简单的方法就是为蜘蛛制造更多内部链接,比如笔者的一个网站就是如此,笔者在每次编辑完文章后都会添加一到两条“阅读推荐”的链接,为蜘蛛提供一个爬行入口,如下图:

原理二:根据网站结构情况来抓取内页

当蜘蛛寻找到一个爬行入口后,它就会开始进行下一步工作——抓取页面内容。但是要注意的是,蜘蛛是不可能一次性把网站上的内容都抓取的,它是会根据网站结构情况去抓取,也就是说,如果网站的结构不合理,将会成为蜘蛛抓取页面的一个绊脚石。因此,站长们应该从两个方面去解决网站内部结构问题:

(1)精简flash以及js代码。百度也曾经声明过,蜘蛛对于含有过量flash元素的网站是比较难以抓取的,因此站长们应该尽量不在网站上使用flash,即使要用也要选取容量较小的flash;对于js代码也是如此,过于华丽的js功能其实是不必要的,这只会加重蜘蛛的抓取压力,因此,把冗余的js去掉或者合并是一个明智的选择。

(2)彻底清除网站死链接。网站死链接的产生有时是不可避免的,但是如果不及时注意清理,也会成为蜘蛛抓取页面的一个绊脚石。站长们千万不要嫌麻烦,最好养成每天一查的好习惯,只要一发现死链接,就应该到ftp删除之,又或者到百度站长平台上提交死链接,告诉蜘蛛这是一个死链接,不要再去爬行,这样才能让蜘蛛增加对你的网站好感度。

原理三:根据内容质量来尝试索引页面

网站的结构如果没有什么大问题的话,蜘蛛一般都能够顺利抓取页面,然后进行下一步的工作——索引页面内容。这一步工作是重中之重,如果成功索引,那么你的网站页面内容也就算成功被收录了,而蜘蛛索引页面的决定性因素就是页面的内容质量。如果一个网站的页面内容过关,或者内容重复度过高都会被蜘蛛轻易否决。所以,为了让蜘蛛成功索引我们的页面,站长们应该要着重网站的内容建设,做到规律更新,即使无法原创也要做到深度伪原创,尽量为蜘蛛提供新鲜的内容。当然我们也可以通过站长工具或者蜘蛛日志来观察蜘蛛对我们的网站索引情况:

原理四:考察过后再发出内页

当蜘蛛完成上面三步工作,并成功索引页面后,那么就可以说我们的页面内容被真正收录了,但是你也不要兴奋过早,因为收录并不等于页面被放出了。蜘蛛有一个工作原理,就是索引后不会立刻放出页面内容,而是会选择性地考察一下才会放出,这段时期我们不必过分紧张,只要继续做好内容更新,耐心等待,不要犯什么大错误,我们的页面内容很快就可以放出了!

蜘蛛只是一个用代码编写的程序机器人,它的规律始终是被人掌握在手上的,因此我们网站收录不理想的时候应该多去研究一下蜘蛛的工作原理,并自己总结出一些规律来制定方案来解决收录问题,这样我们的网站才能实现收录最大化。

时间: 2024-10-25 16:11:54

剖析蜘蛛工作原理制定对策的相关文章

如何根据百度蜘蛛工作原理制定合理的优化方案

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 一切优化工作都是基于百度蜘蛛的,相信对于这句话,各位seoer都不会有半点的质疑.事实确实如此,网站优化处处离不开蜘蛛,所以说,认识和了解百度蜘蛛的工作原理对于我们提升优化水平是非常有效的. 从事优化工作要有一套特定方案,这套优化方案必须要在了解百度蜘蛛的情况下制定,笔者对此也有过一段时间的研究,下面就来以这篇文章来和大家分享一下如何根据百度

SEO人员都必须弄懂的蜘蛛四大工作原理

网站优化的工作都是围绕着百度蜘蛛而做的,相信这个观点各位优化人员都不会有所反对吧.话虽如此,很多优化人员却对于蜘蛛的工作原理感到十分陌生,因此网站的优化还是停留在原来的地步,无法继续提升. 正是这样,我们就需要去了解蜘蛛的工作原理以及根据蜘蛛的工作原理去制定和改善网站的优化方案.具体是怎么样的,下面笔者就来和大家简单谈谈吧. 第一:合理分布外链,让蜘蛛爬行更深入,更分散 我们的蜘蛛机器人和现实的蜘蛛都是一样的,只要有一张巨大的网,它就能轻松自如地在网上爬行,抓取食物.所以说,我们的网站就是一张巨

《高性能Linux服务器构建实战》——3.2节剖析Memcached的工作原理

3.2 剖析Memcached的工作原理 3.2.1 Memcached的工作过程 Memcached是一种C/S模式,在服务器端启动服务守护进程,此时可以指定监听的IP地址.端口号以及使用多少内存来处理客户端的请求等几个关键参数.服务器端的服务启动后就一直处于等待处理客户端的连接状态.Memcached 是由C语言来实现的,采用的是异步I/O,其实现方式是基于事件的单进程和单线程的.使用libevent 作为事件通知机制,多个服务器端可以协同工作,但这些服务器端之间没有任何通信关系,每个服务器

《Photoshop混合模式深度剖析》—第1章混合模式的工作原理

第一部分 混合模式基础了解Adobe Photoshop混合模式的工作原理,以及如何高效地使用这些混合模式.第1章 混合模式简介Photoshop混合模式深度剖析本章介绍在开始使用Photoshop CS6的混合模式之前需要了解的一些基本概念. 为什么要编写一本关于混合模式的书呢?难道那些使用Photoshop的人不会使用混合模式吗?事实证明,确实是很多人不太会用.很多的用户,甚至是从事数字艺术创作和插画工作的专业人士,通常也只使用几个常用的模式.要是让他们去使用其他模式,通常也只是逐个尝试混合

了解百度“蜘蛛”工作的原理 迅速提升收录量

百度搜索引擎有一个俗称"蜘蛛"的自动程序(英文名是"Baiduspider"),它的作用是访问互联网上的网页.图片.视频等内容,建立索引数据库, 使用户能在http://www.aliyun.com/zixun/aggregation/17175.html">百度搜索引擎中搜索到您网站的网页.图片.视频等内容.搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现.搜集网页信息;同时对信 息进行提取和组织建立索引库;再由检索器根据用户输入的查询关

为大家剖析WPAD的工作原理以及故障原因

WPAD是Web ProxyAutoDiscovery的缩写,意思是Web代理服务器自动发现.WPAD的设计目的是让浏览器能自动发现代理服务器,这样用户可以轻松访问互联网而且无需知道哪台计算机是代理服务器.在ISA2006中,WPAD不仅能让客户机浏览器自动发现代理服务器,还可以用于防火墙客户端自动发现代理服务器.显然,WPAD对代理服务器的透明处理让管理员轻松了不少,管理员不再需要去每台客户机上设置代理服务器参数了. 但樱桃好吃树难栽,WPAD的部署并非都是一帆风顺,WPAD的部署可以借助ht

深度剖析Java中的内存原型及工作原理_java

本文主要通过分析Java内存分配的栈.堆以以及常量池详细的讲解了其的工作原理. 一.java虚拟机内存原型 寄存器:我们在程序中无法控制栈:存放基本类型的数据和对象的引用,但对象本身不存放在栈中,而是存放在堆中堆:存放用new产生的数据静态域:存放在对象中用static定义的静态成员常量池:存放常量非RAM存储:硬盘等永久存储空间. 二.常量池(constant pool) 常量池指的是在编译期被确定,并被保存在已编译的.class文件中的一些数据.除了包含代码中所定义的各种基本类型(如int.

Java规则引擎工作原理及其应用

摘 要 Java规则引擎是一种嵌入在Java程序中的组件,它的任务是把当前提交给引擎的Java数据对象与加载在引擎中的业务规则进行测试和比对,激活那些符合当前数据状态下的业务规则,根据业务规则中声明的执行逻辑,触发应用程序中对应的操作. 引言 目前,Java社区推动并发展了一种引人注目的新技术--Java规则引擎(Rule Engine).利用它就可以在应用系统中分离商业决策者的商业决策逻辑和应用开发者的技术决策,并把这些商业决策放在中心数据库或其他统一的地方,让它们能在运行时可以动态地管理和修

第二课笔记:搜索引擎基础知识和工作原理

  大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识.今天要分享的是<搜索引擎基础知识和工作原理>,这是最基本的概念吧, 第一部分:什么是搜索引擎? 1,定义? 官方定义: 搜索引擎是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统.百度和谷歌等是搜索引擎的代表. 我的理解是: 按照搜索引擎的搜索规则去设置目标网站的