阿拉丁计划是新一代搜索引擎。
阿拉丁为搜索引擎百度公司推出的一个通用开放平台,它将接口开放给独特">信息数据的拥有者,从而解决现有搜索引擎无法抓取和检索的暗网信息。
该命名,寓含着百度该平台可以像神灯那样帮助用户实现最便捷地获取信息的愿望。“阿拉丁”计划将由百度创建并于2009年年初面世,相关研发结果也将相继体现到目前的搜索体系之中。 阿拉丁计划旨在超越现有Web内容的限制,对包括众多未纳入搜索引擎检索体系的“暗网”在内的所有信息进行更深一步的分析、融合、处理,以使这些信息能最富有效率地被用户通过搜索引擎进行检索,从而逐步实现“只在一个最为简单的搜索框里面,蕴藏了全人类最为丰富多彩的信息世界!
目前能被搜索引擎检索到的信息只占所有信息中非常小的一部分,大部分信息存在于Hidden Web,亦即“暗网”之中。而“暗网”之所以存在,一方面是很多人类信息没有Web化;另一方面即使一些信息Web化了,也没有纳入搜索引擎的检索体系。正是认识到“暗网”信息的存在和巨大价值,百度开始着手启动“阿拉丁平台”研发计划,期望能挖掘出更多存在于“暗网”之中的有价值信息,将更多的已知和未知信息分门别类融合,有序纳入搜索体系。
近日,百度对外宣布正在推进“阿拉丁计划”,这是一个被百度雪藏多年的计划。
据百度称,百度“阿拉丁”平台的推出,是为解决现有搜索引擎无法抓取和检索“暗网”的信息而来。所谓“暗网”(Hidden Web)是指目前搜索引擎不能检索到的信息,百度认为大量的信息仍然处在“未知世界”当中。数据显示,目前能够搜索到的数据仅占全部信息量的千分之二。
百度说法:目前能被搜索到的信息量仅千分之二
百度CEO李彦宏说:“在互联网上,有很多信息并没有被网页化,我们根本没有触及到,也就是所谓的‘暗网’,‘阿拉丁计划’正是瞄准这些未知世界。”
百度新上任的CTO李一男说:“‘阿拉丁’是一个开放的搜索引擎平台,它是百度的,更是面向所有人的。我们希望未来的搜索引擎,能像阿拉丁神灯那样,在瞬间满足用户所有的搜索需求。百度希望通过对‘阿拉丁’平台的构筑,超越现有web内容的限制,对包括‘暗网’在内的所有信息进行更深一步的分析、融合、处理,确保为用户提供零成本、无障碍、无时差的精准搜索结果。”
行业专家观点一:百度的“暗网”说法不靠谱
对百度提到的“暗网”,正望咨询总裁吕伯望认为此说法很矛盾,“首先,‘暗网’并不像百度描述的那么海量;其次,有些‘暗网’不被搜索引擎搜到是有理由的,比如涉及到私密性等。”
吕伯望具体谈到,“暗网”并不像百度说的那样,还有千分之九百九十八那么大一块没被搜到,不是这样的概念。因为其中有很多搜不到的东西,它本来就是不应该被搜到的,这些信息涉及到私密或者需要付费才能看到,也或者是某一种软件需要特别的文件格式等。类似这样的信息,如果被搜索引擎搜到的话,反而违反了商业原则。对于这类信息,搜索引擎技术即使做得再好,也不应该去搜,比如《华尔街日报》的内容,是需要购买才能被看到的,比如SNS网站上发布的用户及好友信息,再比如某些网站明确拒绝被搜索引擎抓取内容。这些就决定了搜索引擎是否能搜到的界限,这条界限是不能轻易去跨越的,它之所以形成这条界限也是有理由的。
“而且‘暗网’没有那么多。目前,互联网总的说来还是以免费的信息为主,收费的、涉及私密的还是少数,网页数量上还是处在少量,百度提出现在被搜到的信息只占千分之二的说法太夸张了。当然如果把局域网上的内容、用户计算机硬盘上的东西都算进去的话,有可能得出百度所说的结果。不然的话,搜索引擎这个互联网最重要的工具目前只能搜到千分之二的信息,这是很难想象的。”吕伯望认为。
行业专家观点二:“阿拉丁”是被包装后的“云计算”
“百度的此番做法是在为下一代互联网做准备,因为目前的发展已经到了瓶颈,不准备‘云计算’之类的技术肯定会被拖死。因为百度的流量每年都在增长,业务范围越来越大,未来要面对谷歌、腾讯、阿里巴巴等多家激烈竞争。”互联网实验室评论员柳华芳认为。
“看谷歌做什么,就知道百度的动向了。”柳华芳说。
同时有业内人士这样形容百度“阿拉丁”:“如何实现对庞大信息量的处理?我们剥开‘阿拉丁’的层层面纱,终于看到事情的本质,原来‘阿拉丁’就是包装过的‘云计算’。要应对每天数十亿次的搜索请求,要同时满足各个领域不同类型的数据分析,要把杂乱无章的信息整理为精准的搜索结果……这一切,就必须有服务器群的并行计算,也就是我们常说的‘云计算’。”