卢松松:搜索引擎如何抓取你的网页

  搜索引擎优化(SEO)是搜索引擎有好的收录网页的过程,适当的SEO有利于蜘蛛爬行你的网站,使你的内容符合搜索引擎算法,以便确认它与关键词高度相关。

  优化的目的就是使网页的内容便于蜘蛛理解,下面我就以百度新收录的一篇内容来进行说明,我以一个完整标题进行搜索,其目的是能反映出更多关键词在百度自然搜索的结果页面,能更好的说明搜索引擎是如何抓取你的网页的。

  


 

  (图一:百度最常见的自然搜索结果列表)

  SEOer通常关注的是网页主体部分的自然搜索结果,百度和Google搜索结果页面大致相同,搜索结果页面通常为顶部、右侧、尾部均为广告链接,热门关键词会有广告,而我用这么长的词语就属于冷门词语,没有广告。

  页面标题很重要

  如图一所示,搜索引擎通常抓取的页面标题是HTML代码中的标题Title部分,所以说页面标题是写法对搜索引擎排名有重要的意义,通常页面标题Title的优化格式为:文章标题——栏目标题——网站标题。

  它不一定只展示description

  而第二行的描述部分通常会截取description部分,但更多时候会抓取正文的前200字,如果你要说具体显示description还是截取 正文,是和用户搜索的关键词有关。比如图一中,百度截取了<h1>中的关键词,因为卢松松博客的中有“互联网”这个关键词。下图能直观的反应 出这些问题。

  


 

  (图二:搜索引擎抓取的关键词分布一览)

  把图一和图二结合起来看,我们就能清楚的分辨出,百度到底展示了网页的哪些部分,title、<h1>、截取正文和内容部分的关键词。;

  用户搜索的关键词在搜索结果中都用红色高亮显示,用户可以非常迅速地看到该网页是否是自己想要的,通常百度和Google的搜索结果类似,我在这里就不多说了。

  关键词的密度与分布

  通过上面两张图,可以看出我搜索的有两大关键词“互联网”和“香港人”,通过图二我们可以看出,这两个关键词在我列出的6大部分中都有显示,它们均 匀的分布在内容的各个部分,尤其是标题和title部分。当然由于我搜索关键词的问题,把整个标题都搜了一遍,所以分布的比较均匀。

  而关键词的密度,至少我从来就没有在意过,如果在写文章的同时还考虑关键词密度的话是很累的。

  我想,通过以上简单分析,大家应该能大致了解搜索引擎抓取你网页的什么部分了吧?

  作者:卢松松 本文地址:http://lusongsong.com/reed/369.html

时间: 2024-08-03 09:30:56

卢松松:搜索引擎如何抓取你的网页的相关文章

了解搜索引擎的抓取原理是做SEO优化的关键

在我刚刚接触SEO这个行业的时候,常常会因为不熟悉各大搜索引擎的抓取原理而做了很多的无用功,针对我的seo优化网站,更新了很多的内容(让我的网站更加的丰富),针对网站的外链操作方式进行了反复的调整,这一切好像都是没有用的.搜索引擎就好像是不喜欢我网站一样,所以不管是百度搜索引擎还是谷歌搜索引擎,我觉得不管是seo站长还是seo新手,做为seoer的我们都应该对搜索引擎做的抓取原理进行了解,甚至要去结合搜索引擎的算法不断调整seo优化网站的操作模式,在这里我就结合自己工作中的一些经验,给大家分享一

一个网站的导航可以正确的引导用户的访问和搜索引擎的抓取

摘要: 网站的导航是网站补课缺少的一部分,一个网站的导航可以正确的引导用户的访问和搜索引擎的抓取.更能方便用户快速的寻找和浏览网站内容. 一,什么是网站的导航 它是指通过网 网站的导航是网站补课缺少的一部分,一个网站的导航可以正确的引导用户的访问和搜索引擎的抓取.更能方便用户快速的寻找和浏览网站内容. 一,什么是网站的导航 它是指通过网页不同的访问路径,对网站内容进行划分.是为用户提供一个快捷的通道,方便用户快速寻找浏览所需内容.使用户在浏览网页的过程中不至于迷失方向. 二,网站设置导航的目的和

Sitemap地图是否对搜索引擎的抓取有帮助

摘要: 随着搜索引擎的技术不断的提升,抓取网站内容的深度越来越深,在加上CMS系统的大力推广,网站的结构更加符合搜索引擎的要求,总之对于搜索引擎抓取内容变得更加容易,一般情况 随着搜索引擎的技术不断的提升,抓取网站内容的深度越来越深,在加上CMS系统的大力推广,网站的结构更加符合搜索引擎的要求,总之对于搜索引擎抓取内容变得更加容易,一般情况下即便不向搜索引擎提交网站地图,同样也能获得不错的收录,那么Sitemap地图是否对搜索引擎的抓取还有帮助? 我个人认为Sitemap地图对搜索引擎抓取内容到

有关搜索引擎爬虫抓取原理浅析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 本文简单的分析了爬虫抓取网页的一些基本原理与大家同享,能基本了解网页的几个排名因素:链接的建设和网页的布局,多多体会,写的不好也别骂,谢谢! 爬虫的工作原理包括抓取,策略和存储,抓取是爬虫的基本劳动过程,策略是爬虫的智慧中枢,存储是爬虫的劳动结果,我们按照由浅入深的过程来了解整个爬虫的工作原理. 1:从种子站点开始抓取 基于万维网的蝴蝶型结构

PHP 使用 CURL 同步抓取多个网页

一般CURL 抓网页的方法, 是一页一页抓, 假设要抓 4页, 所费时间各别是 5,10,7,5 秒, 那全部总合所花的时间就是 5 + 10 + 7 + 5 = 27 秒.若能同时间去抓取多个网页, 所花费的时间 5,10,7,5 秒, 全部总合所花的时间是 10 秒.(花费最多时间的秒数) 于JavaScript 可使用 AJAX 的 async(YAHOO.util.Connect.asyncRequest)来达成, 于 PHP 可以用 CURL 来达成此 Multi-Threading

C#实现抓取和分析网页类实例

  本文实例讲述了C#实现抓取和分析网页类.分享给大家供大家参考.具体分析如下: 这里介绍了抓取和分析网页的类. 其主要功能有: 1.提取网页的纯文本,去所有html标签和javascript代码 2.提取网页的链接,包括href和frame及iframe 3.提取网页的title等(其它的标签可依此类推,正则是一样的) 4.可以实现简单的表单提交及cookie保存 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

c#用httpwebrequest如何模拟抓取这样的网页信息

问题描述 c#用httpwebrequest如何模拟抓取这样的网页信息 c#用httpwebrequest如何模拟抓取这样的网页信息,下面内容是用fiddler抓取的.CONNECT user.cloudcall.hk:8080 HTTP/1.0User-Agent: Mozilla/4.0 (compatible; MSIE 6.0;Windows NT 5.1) AppleWebKitHost: user.cloudcall.hk:8080Content-Length: 0Connectio

解决方案-GET抓取安居客网页数据频繁了被屏蔽怎么绕过他的验证?

问题描述 GET抓取安居客网页数据频繁了被屏蔽怎么绕过他的验证? 用火车头采集安居客,但是一会就会全部跳转到输入验证码页面验证了才能正常访问,除了用代理还有其他的解决方案吗? 解决方案 只能换ip,既然服务器封了就没办法了.不过网上有那种代理服务器api,几块钱一天,可以获取上万的不同ip,可以说基本上也就相当于没限制. 解决方案二: 活该,谁叫你频繁地搞,搞到手的数据就存起来用啊.不如果不用等待答复的,直接构造IP包发送请求就完了. 解决方案三: 用神箭手云爬虫吧,平台自动帮你解决这种ip啊,

url-如何使用Python抓取翻页网页的数据

问题描述 如何使用Python抓取翻页网页的数据 我想使用Python抓取一个需要翻页的网页所有数据,但换页时URL不变,我想找到换页 的接口,通过接口访问下一页的数据.请问怎样分析?http://www.szairport.com/frontapp/HbxxServlet?iscookie=C