刚刚看到一位海龟大虾写了一篇名为“‘采集’到底是福是祸”的文章感慨良深。想我们做站之初的目的完全是为了给像自己一样的网民提供方便,到最后为了网站的生存和发展,我们不得不采用一些特殊方式,就好像采集内容,买友情链接等等......
就拿一个新站来说http://edai.cc,这是一个专业贷款问答网站。作为一个问答网站,所需要的信息量是非常巨大的,少则上万个问答,多则几十万上百万,如此之多的问答,靠人工发布不仅要消耗很大的人力,还需要长久的时间,这不符合网站的既得利益。如果不采集对于一个网站来说,太少的内容会被搜索引擎视为垃圾站,不会被收录,网站也就基本算是以失败而告终了。
做为一个网民,我也经常会遇到通过搜索引擎搜到大量的重复信息,即使名称和内容稍有变化,讲述的还是一样的东西。这让我无法识别正确的信息也浪费掉我宝贵的时间,的确让人很头疼。但是追根究底,我想原因还是来至于搜索引擎的搜录规则。信息不能重复的原则就是需要原创,而原创是需要更多的时间和精力。对于一个个站站长来说,这几乎是不可能完成的任务。而没有信息的网站不被搜录,也就很难生存下去。采集器的出现,为站长们解决了建站之初,完善信息的问题。在采集的基础上,持续增加原创,让一个新网站得以被搜索引擎收录,并完善下去,成一个有特色的有亮点受网民欢迎的网站。
我想引发笔者疑问的主要还是那些垃圾站。垃圾站的目的就是了增加流量赚取广告费,一般采集了足够的信息,就不会在花过多的时间去管理更新内容。采集器为垃圾站创造了便利,不需要花费多少时间就可以建立N个新网站,垃圾站的数量越多,我们查找的重复信息就越多。我想说的的是采集器本身是没有任何对错,对错完全是由人为制造的。就好比诺贝尔发明炸药之初的目的是为了帮助修路工人方便开山移石,但最后却被用来发动战争,取人性命。这是诺贝尔不曾想到,也不愿见到的。
所以归根究底,采集到底是福是祸,完全是由站长们来决定的,采集本身谈不到对与错、豁或福。