身边好多人都觉得SEO很简单。无非就是那几个标签用好,无非就是img加alt,无非就是代码语义化,无非就 是提高网页加载速度。但是还是有人问:怎么才能让我的博客被百度收录?为什么我的博客建了两个月了还是没被百度收录?
网上很多有快速被百度收录的技巧,不知道你们用没用过,但是相信你们都不知道为什么。在看到这些技巧之前,我已经从书本上了解到一些搜索引擎原理, 进而进行了一些测试,百度博客三天之内即被收录。印象里是一天被百度收录,第二天被google,要么就是反过来。所以这篇文章就是告诉你,为什么那些技巧有的能见效,有的不能见效。
搜索引擎的主要步骤就是抓取页面,建立索引,响应搜索。被收录主要涉及到前两步:被搜索引擎抓取,然后被建立索引--就是我们指的被收录。搜索引擎首先要分析这个网页都有什么,然后才决定要不要为把你收录到他的索引数据库中。单单靠被抓取是不能够保证被收录的。下面先进行第一步:如何 被搜索引擎抓取?
这些你们可能都知道,所有的爬虫都是根据URL链接进行爬取页面的。那我们首先想到的就是,把我们的页面在爬虫最经常爬的地方留下链接,让爬虫尽快 的最大机率的抓到我们的URL,把我们的URL放在它的待抓URL列表里。这时爬虫就上钩了。
然后这时候我们要想,哪里爬虫爬的最多,又可以留下链接呢?首先想到的就是博客,去各大博客首页出现的文章里留言,去各推荐博客留言,留下自己的链 接,主要是为了被爬虫注意。这就是我们的饵。如果你的是博客的话,还有一个技巧,完全白帽,却是很多人都不知道的,各大搜索引擎都有针对博客推出的ping服务,拿百度来说,登陆http://ping.baidu.com/ping.html提 交自己的RSS地址即可。看清是RSS地址哦。
还有如果还有人单纯说搜索引擎只靠爬虫收录页面就OUT了。任何一家想做大的搜索引擎,都想尽可能多的获取更多数据,更合理的展示给用户。所以,他 们会从任何可能的地方获取索引库外的信息。就拿google的工具栏来说,google正式在隐私里声明了会获取用户的哪些信息,当用户访问到 google索引库里没有的页面时,google就会开始注意这些页面并在合适的时候采取收录。如果说某些自己产品足够大,能客观反映一些事实的时候,对 排名造成影响也不是情理之外的事情。比如说google的analytics,流量统计工具,如果你是做黑帽google的,就要留神,你的数据 google全有,本来一些在传统爬虫难以确定的作弊手段中,在anlytics体现的一览无余,这时候你的排名也会降的览不到。
所以,你可以在他们自家的产品中留下自己链接的痕迹。但是这种效果见效是很慢的,甚至说难以见效,因为他们应该这么做,但不代表他们已经这么做了, 就算这么做了,不代表做法是完全合理的……网上盛传的所有的被快速收录的方法,都可以从上面的原理中找出一些影子来。其实就是这些原理的存在而导致那些技巧可以见效。
而最关键的,也是书上你不可能学到的,就是接下来我想分享最近的经验。正如前面所说,抓取了,不代表会收录。上面说的都是引导爬虫过来抓取。如果你的文章是很热门的转载,连一个字都没改,原文出处也没标明。这时候你就 要注意了,上面的技巧你全用了,也很不可能被收录,即便收录了,你也会发现第二天又搜不到了(此种情况主要出现在百度)。
这就是百度针对转载的一些处理方式。
网上盛行大部分重复信息,做为搜索引擎是不可能把他们全部建立索引并展示出来,对搜索行为来说,这种文章只要有一个就足够结束搜索行为了。但是,眼 下在百度出现一个问题就是,原创被转载,往往是转载的拍到前面,原创排在后面甚至被聚合掉,什么都看不到。这个现象在百度站长俱乐部里被提出来,得到的是 百度官方的肯定:这的确是个显著的问题。这表明我们在这方面的策略上有极大改进空间。这类积重的问题,非一朝一夕能搞定,需要伤筋动骨的动 动手术才行。所以请大家耐心。
另外需要说明的是,搜索引擎的排序出发点,是用户的搜索体验。虽然说,很多时候尊重原创和用户体验是一致的。但是,毕竟也有一些case,转载的体验会比 原创更好。这时候原创者的排序未必会高于转载者。但无论如何,原创者的应该以另外一种方式被肯定,而不是简单的被聚合掉。原文在:http://tieba.baidu.com/club/9374916/p/5862646
这句话在我的理解就是:百度现在的做法有错误的地方,需要改善,错误的地方就是原创和转载的内容上,错误的把原创聚合掉。(简单的说就是被放在“相似结果里”,正常显示结果是看不到的)。而seo群里有的高手认为,这句话的意思是:只要被转载的多,你网页受到百度的待遇也会高。我相信他这句话在未来是对的,但是在现在做的话,可能会吃到苦头。往往原理是对的,但是在百度却总是适得其反,正如国平所说的,如果你的网站出现错误,这时候往往是百度出错了。
我经历了几次页面被收录又被聚合甚至删出索引库的待遇,基本上可以肯定,在百度,如果你的站和博客是新的,不要去发一篇新的文章,然后去权重高的网站发表转载,这样你博客的文章会被这个权重高的很随意的聚合掉。有人说在转载里留上原文链接,就可以避免这个情况。我没测试过,分析一下是应该可行的,但是不能保证百度的结果……。
SEO真的还很简单么?我这只是初步的分析和总结,如果你仔细读,仔细想了,你就会发现seo深不见底,之所以不见底,一方面是搜索引擎算法的保密,另一方面是想给搜索者一个满意的答案,是一个庞大的工程,而seo面对这个工程,任务会涨到一个艰巨的顶峰。无论如何,SEO的前景会越来越好,但是技术深度也会越来越深。沉不下气,只会觉得SEO太无聊,搜索引擎太SB,然后转行。
有时候一个人静静的做SEO也是一种享受,有很多可爱的数据case,有很多人无形之中被sem了还不知道。你掌控了数据感到自豪,你掌握了人的心 理甚至觉得自己是了不起的。当然我还没能达到那个地步,正在努力。
欢迎到我博客拍砖http://hi.baidu.com/summer8th