&">nbsp; 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。
HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
搜索引擎不段的成熟,不段的完善,更加符合人们的搜索习惯,就要不段的清理已收录的网页,对于自己网站在搜索引擎收录减少并不可怕,只要我们认真的分析原因,诚心诚意的去面对,搜索引擎会给你更多流量回报的。下面我就来谈谈收录减少的处理办法。
一. 收录量适当的减少
如果你的网站收录不管是百度还是谷歌等搜索引擎,某一天收录量给减少了一部分,这个一部分我所指的是网站总收录量的十分之一或更少,这种情况我们不用担心,这可能就是搜索引擎在进行小调整,这个是正常的,比如我的站露珠CMS在这次百度大更新的时候收录量还少了两百,这个没什么的。人就还有个伤风感冒的时候,更何况是机器,程序也有出错,计算或许进步的时候。
二. 收录量狂掉
如果你的收录量,在一个星期之内,收录量就掉了一大半了或更多,这个时候,你一定要注意了,不能大意了。仔细的检查一下看是不是空间的问题,网页代码的问题,网页代码让人给恶意更改了没,是否改版,查看最近一天的流量图,关键字走向,是不是有违规的内容等等,我们能想到的都看看吧。
三. 收录量归0
如果收录量一夜之间归0了,这种大多数时候就是各大搜索引擎在大量改参数,参数对你站不利,当然要给你清0了。比如我的站aabc.cn一晚上就给我清0了,这种要想恢复,时间上就要长一点,这时你如果域名不是很重要的话,可以放手,或更新时间上少用点,注意更新的质量,多搞原创,多搞点高权重的外链接。运气好的话一个星期就能恢复部分收录。当然如果你的站同时被几个搜索引擎都给清0了,这时你最好是不要这个站了,有可能真的是某一方面不符合搜索引擎的胃口。正常情况下基本上只有百度才会清0收录量,谷歌是很少,其它搜索引擎如soso yahoo也有清0的可能。不过他们给我们站来的流量不多,可以不管他们。
综上所述,我们作为中小站长离不开搜索引擎,当然更离不开百度,我们只有适应他们,我们的站才有机会发展壮大。在此祝大家有好运,天天开心。以上就是我本人的一些看法,谈得比较肤浅,欢迎大家给我指正,与我交流QQ:93065410露珠CMS网站:http://www.luzhuba.cn。