技术上讲,规范化是转换数据的一个过程,它由一种可能的表述变为标准化的规范性表述。搜索引擎运算法则包括数学相等,它比较对相似性的不同表述,计算明显的数据结构数量,发现一种有意义的、规范的排列次序。
这听起来似乎很对?对于软件工程人员、计算机程序员和数学家来说,是这样。下面,我们还是把这种表述变得更为简单一些。
坦白地讲,诸如Google一类的搜索引擎使用规范化程序,为用户提供短的、有益的URL.想一下,当搜索引擎为用户提供以下选择时,一般用户会最有可能点击哪个URL.——www.yourdomain.com;—— yourdomain.com/nasapp/index.jsp?
——http://www.yourdomain.com/home.jsp;jsessionid=UJ2LLSBRQH4VMCWQNWRSCOYK0BW0IIWE?
_requestid=55555如果你相信Google的规范性选择可能是www.yourdomain.com,即使上述三个URL到达相同的目的地,你也可能会自豪地说,你懂得规范化的基本原则。
下面,让我们进一步对主流搜索的规范性选择进行观察,看一看还有哪些因素会决定搜索询问结果中出现哪个URL.
处于讨论之目的,我们在Google、雅虎和MSN中完成一次对“milwaukee brewers” 的搜索,并比较一下搜索结果。
Google提供的搜索结果如下:The Official Site of The Milwaukee Brewers: Homepage Features scores, game schedules, roster, news, history and forums. brewers.mlb.com/ - 78k - Cached - Similar pages Schedule : 2007 Brewers Schedule - milwaukee.brewers.mlb.com/NASApp/mlb/s……
Active Roster - milwaukee.brewers.mlb.com/……/roster_active.jsp?c_id=mil Ticket Center - milwaukee.brewers.mlb.com/……/ticketing/index.jsp?c_id=mil Help : Job Opportunities - mlb.mlb.com/NASApp/mlb/mlb/help/jobs.jsp?c_id=mil More results from brewers.mlb.com ?
雅虎提供的搜索结果如下:Milwaukee Brewers Official site of the Milwaukee Brewers. Features up-to-date stats and results, player bios, minor league information, ticket and merchandise ordering info, player ……
Category: Major League Baseball > Milwaukee Brewers www. milwaukeebrewers.com - 79k - Cached - More from this site MSN Live搜索引擎提供的结果如下:Milwaukee Brewers : The Official Site MLB Sites MLB.com Angels Astros Athletics Blue Jays Braves Brewers Cardinals Cubs Devil Rays Diamondbacks Dodgers Giants Indians Mariners Marlins Mets Nationals Orioles Padres Phillies Pirates Rangers ……
www. brewers.mlb.com我们注意到,没有一个最先的搜索结果与其它的搜索结果有相同之处。上述所有的索引列表都引到了http://milwaukee.brewers.mlb.com/index.jsp?c_id=mil.为什么会是这样?在Google、雅虎和MSN中的一个域名会显示相同的结果?是否是Milwaukee Brewers使用临时的改变方面域名和多个域名对搜索引擎进行了嗅测?
绝对不对。规范化处理过程只是调整搜索环境,一个搜索引擎与另一个搜索引擎的运算要素各不相同。Google在进行内部链接时,知道两个域名是相同的,并一视同仁地对待。通过使用询问排列命令,Google显示出它知道link:brewers.mlb.com和www.milwaukeebrewers.com有2200个链接。
有许多SEO专家讨论过Google对于次域名的选择问题。这也证明网站是如何进行搜索和索引的。输入“site: brewers.mlb.com”,你会得到7880个网页。而输入“site:www.milwaukeebrewers.com”,就会得到“与任何文件都不匹配”的结果。
为了给用户提供选择性结果,Google会把www.milwaukeebrewers.com转移到非指数化的无人地区。Google喜欢显示不错的次域名brewers.mlb.com ,作为其对“milwaukee brewers”最相关搜索结果。
MSN Live搜索引擎在进行运算调整时表现得不是很完美。它索引了近1300页“site:brewers.mlb.com”和6页“site:www.milwaukeebrewers.com”。其运算法则为“link:www.milwaukeebrewers.com”提供了近14000个内部链接,为“link:brewers.mlb.com”提供了14000个内部链接。MSN Live搜索引擎通过在搜索结果中的非规范化URL,复制自己的搜索结果。
MSN Live搜索引擎也有不错的创意,诸如次域名和临时搜索改道。MSN Live具有过滤功能,并把其设为“高级”以阻止垃圾信息和任何伪装的规范化信息。
而雅虎的优先选择为forbrewers.mlb.com,而非次域名副本brewers.mlb.com.基于雅虎 Site Explorer提供的信息,brewers.mlb.com有735页索引和228个内部链接。同时,www.milwaukeebrewers.com有45页索引和6331个内部链接。
如果网络管理人员想使用Google和MSN Live搜索引擎,他们是否需要对网站进行重新设计,把次域名包括其中?绝对不是。次域名并非是改善指数化的秘密武器。只有高级域名中的一小部分包含完整的独特性内容,并强调不同的主题时,次域名才有很大的作用。
在主流搜索引擎中,通过测试来推动规范化进程是一件很有意思的事。高级域名是否要做为优先选择影响Google和MSN Live搜索引擎指数化?XML网站地图反馈是否会鼓励雅虎在自然的搜索结果中提供次域名?这些问题有待进一步研究。
(原文首发于2007年2月14日;编译:靳生玺)