搜索引擎如何索引收录网页-搜索引擎技术

对SEO(搜索引擎优化)而言,让网站内的页面能够及时、全面地被搜索引擎索引、收录应该说是首要的任务,这是实施其他SEO策略的最基本保证。——不过,这也是往往易被高估的一个环节,比如说我们时常可以看到某些人宣称自己的网站被Google收录了多少页面如几K甚至几十K等以证明SEO工作的成功。但客观地说,网页仅仅被搜索引擎索引、收录是没有太大的实际意义,往往只能沦为浩如烟海的Internet世界中的殉葬品,更重要的是如何让网页出现在针对特定搜索项的SERP(搜索结果页面)前几页。——许多人相信,让网站内尽可能多的页面被收录进搜索引擎索引数据库终归不是一件坏事,网页越多,暴光的机会也便越大,虽然最终效果如何存在疑问。
 
      Anyway,如果在对网站实施SEO时将重点放在网页被索引、收录的速度与效率,当然也无可厚非,而要想实现这一点,需要我们对搜索引擎如何收录、索引网页的机制有所了解。下面我们以Google为例,介绍搜索引擎收录、索引网页的过程,希望能对朋友们有后助益。——对其他搜索引擎如Yahoo!、Live搜索及百度而言,尽管可能在具体细节上存在差别,不过,基本策略应该是类似的。
 
1、收集待索引网页的url
      Internet上存在的网页数量绝对是个天文数字,每天新增的网页也不计其数,搜索引擎需要首先找到要索引收录的对象。

      具体到Google而言,虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷耘,当然,名字本身并不重要——至少到目前为止,主流的看法是,在Google的robots中,的确存在着相当部分专门为真正的索引收录页页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧——它们的任务便是每天不停地扫描Internet,以发现并维护一个庞大的url列表供DeepBot使用,换言之,当其访问、读取其一个网页时,目的并不在于索引这个网页,而是找出这个网页中的所有链接。——当然,这样似乎在效率上存在矛盾,有点不太可信。不过,我们可以简单地通过以下方式判断:FreshBot在扫描网页时不具备“排它性”,也即是说,位于Google不同的数据中心的多个robots可能在某个很短的时间周期,比如说一天甚至一小时,访问同一个页面,而DeepBot在索引、缓存页面时则不会出现类似的情况,即Google会限制由某个数据中心的robots来完成这项工作的,而不会出现两个数据中心同时索引网页同一个版本的情况,如果这种说法没有破绽的话,则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。因此,有时候发现GoogleBot频繁访问网站也不要高兴得太早,也许其根本不是在索引网页而只是在扫描url。

时间: 2024-08-17 19:41:16

搜索引擎如何索引收录网页-搜索引擎技术的相关文章

惊现索引擎如何索引收录网页的方法_网站应用

highdiy 发表在 五月 9, 2007  对SEO(搜索引擎优化)而言,让网站内的页面能够及时.全面地被搜索引擎索引.收录应该说是首要的任务,这是实施其他SEO策略的最基本保证.--不过,这也是往往易被高估的一个环节,比如说我们时常可以看到某些人宣称自己的网站被Google收录了多少页面如几K甚至几十K等以证明SEO工作的成功.但客观地说,网页仅仅被搜索引擎索引.收录是没有太大的实际意义,往往只能沦为浩如烟海的Internet世界中的殉葬品,更重要的是如何让网页出现在针对特定搜索项的SER

搜索引擎为什么不收录你的网页?

搜索引擎|网页  1.网页使用框架:框架内的内容通常不在搜索引擎抓取的范围之内. 2.图片太多,文本太少. 3.提交页面转向另一网站:搜索引擎可能完全跳过这个页面. 4.提交太过频繁:一个月内提交2次以上,很多搜索引擎就受不了,认为你在提交垃圾. 5.网站关键词密度太大:不幸的是搜索引擎并没解释多高的密度是极限,一般认为100个字的描述中含有3-4个关键词为最佳. 6.文本颜色跟背景色彩一样:搜索引擎认为你在堆砌关键词欺骗它. 7.动态网页:网站的内容管理系统方便了网页更新,却给大部分搜索引擎带

搜索引擎收录网页与网页权重之间存在着本质的区别

摘要: 搜索引擎收录网页与网页权重之间存在着本质的区别,也就是说收录不是权重,权重不是收录. 以前本人常常强调权重的重要性,并鼓励网站不要流失权重.但是却少有提及让搜索引擎 搜索引擎收录网页与网页权重之间存在着本质的区别,也就是说收录不是权重,权重不是收录. 以前本人常常强调权重的重要性,并鼓励网站不要流失权重.但是却少有提及让搜索引擎收录更多网页的问题,因此,在本文中,笔者会从不同的角度谈该问题.其实收录与权重有着非常大的区别,从一个简单的说法来说即,收录量决定着网站内容在检索结果中出现的频率

9点改善加强搜索引擎收录网页数量

搜索引擎(search engine)是指根据一定的策略.运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统.从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表. 互联网发展早期,以雅虎为代表的网站分类目录查询非常流行.网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下.用户查询时,通过一层层的点击来查找自己想找的网站.也有人把这

索引库和索引库在搜索引擎中起到什么作用

摘要: 在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也 在网络公司做过程序开发的朋友都知道,我们通常用的数据库搜索技术就是把用户输入的词汇,跟数据库中的某个或多个字段里的内容进行比较,同样,搜索引擎的运行原理简单来讲也就是这样: 用户输入一个词汇,搜索引擎从他的数据库中找到匹配的内容,再以有序的排列展现给用户,搜索引擎每天就是不厌其烦地不断重复这些操作.看似一切很正常,我们用数据来

SEOer需要了解搜索引擎的索引器

一个合格的SEOer需要对搜索引擎的结构有一定的了解,这样在进行seo时可以做到心中有数,有条不紊,而不必拘泥于固定的优化方法和技巧.而此时要分析的索引器,它是搜索引擎结构中一个比较重要部分. 索引 器第对搜索引擎是比较重要的,比如:我们熟悉的百度新闻,它是"由机器每5分钟自动选取更新",比较具有实时性,并且数据量也是相当的大.此时索引器的算法对索引器的影响就显得十分突出了.因此有人说,一个搜索引擎的有效性在很大的程度上取决于索引器的质量(精确的说应该归功于索引器的索引算法). 下面我

放弃搜索引擎无效的收录 专注热门关键字

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 首先说一下大站的SEO,通常人们对大站的SEO中,有二点是要作的: 第一点就是关键字(常用关键字)的数量,希望网站中有更多的关键字,把网页的内容和META尽可能弄的不一样; 第二点就是在搜索引擎中的收录量,希望更多的收录网页;认为网页多了,总有个别的能被搜到吧! 而大站的SEO中,很多人都避开针对单个热门关键字去PK优化!优化完内部就完事了!

Page seo 网页搜索引擎优化攻略

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网页搜索引擎优化(page seo)或者搜索引擎优化(seo)是确保你网站能尽可能对搜索引擎友好的技术.假如你的网站到现在还没有做优化,ok,那么你就损失了在百度.谷歌雅虎等搜索引擎良好排名的机会,也得不到搜索引擎上的巨大流量.下面是教你怎么样快速做好网站优化的方法和步骤: 一.请确保您的网页都可以被搜索引擎索引-确保你的网站有一个通向任何页

搜索引擎优化十大误区-搜索引擎技术

有没有想过人们对搜索引擎优化(SEO)最大的错误认识有哪些?我找出了十个最流行,却一次次改头换面出现的错误观点来介绍给你.这是那些正寻求雇用SEO公司或准备自己做SEO的人的必读文章.误区1:所有的元标签都是同等重要的.某些元标签(meta tags)确实很有用,但有些就不是.我已经说过很多次.搜索引擎越来越倾向于依据网站本身的内容来判断,而不是元标签信息.某些(不是所有)搜索引擎接受使用描述标签(description tag).关键字标签(keyword tag)也是如此.关键字标签更多是被