维基搜索收购网页的抓取器

据国外媒体报道，维基百科创始人吉米·威尔斯今年有一个宏大的计划，就是开发开源、开放的搜索引擎维基搜索，这一项目被誉为今年国际互联网的两个黑马产品之一

。周五，威尔斯透露了这一项目的一些进展。

据称，他已经收购了一家拥有抓取技术的公司，另外，维基搜索将依靠成千上万的用户电脑来分布式地抓取网页，而不是构建自己的“蜘蛛”服务器群。

　　威尔斯表示，他正在把若干个技术模块组建成完整的维基搜索，预计到今年年底，维基搜索将会提供一个公开测试版，这一依靠人工编辑优化网页搜索结果的全新搜索引擎将对Google公司和雅虎公司发起挑战。

　　威尔斯是周五在美国俄勒冈州举行的一次软件开发工程师会议上作出上述披露的。他说，他旗下的营利性企业维基公司（Wikia）已经收购了一个技术先进的网页抓取工具，名为Grub。维基搜索将利用这一工具对网页进行索引。

　　据报道，威尔斯从加州旧金山一家名为Looksmart的公司收购了Grub工具。这一工具最初是一个开源软件项目，可以提供免费的下载，不过后项目终止，并最终被维基搜索收购。目前，威尔斯和这家公司都没有披露交易价格。

　　威尔斯说，未来Grub项目仍将保持开源属性，任何程序员都可以对这一工具进行修改和优化。

　　Looksmart公司的主要业务是网络广告代理。上周，该公司宣布，他们已经和威尔斯达成协议，将代理旗下营利性网站的广告位。此前，维基公司旗下营利性网站的广告都来自Google公司。不过，维基百科作为维基基金会的免费项目，并不会插入显示广告。

　　和Google、雅虎的网页抓取技术不同，Grub采用的是分布式技术，任何志愿人员可以下载这一工具，然后利用他们空余的计算机时间来帮助维基搜索从事网页抓取的工作，这些抓取的网页将提交到维基搜索的服务器上。这样维基公司将可以大大降低搜索引擎运营的成本。

　　此前，威尔斯已经对外透露，和目前的搜索引擎不同的是，维基搜索将会学习维基百科的运作模式，依靠成千上万的人工编辑对于网页结果进行质量评估，从而将搜索结果进行优化。他认为，通过这种方式，可以终结目前在Google中搜索到大量无关网页结果的局面。当然，搜索过程还将依靠复杂的计算机算法，人工将只针对网页的质量。

　　在搜索算法方面，威尔斯表示，他们将采用另外一个开源的软件，名为Lucerne。他说，维基公司的工程师计划对这一软件进行增强。

　　值得一提的是，维基搜索并非免费项目，而将是一个商业搜索引擎，威尔斯将会在搜索引擎中启动搜索广告。威尔斯表示，如果搜索引擎运营成功，也将对维基百科免费服务提供资金上的支持。

　　分析人士认为，维基搜索将是一个带有WEB2.0特色的网络搜索引擎。除了这一产品之外，今年被誉为黑马的另外一个互联网产品是Skype创始人曾斯托姆和弗里斯创建的P2P网络电视软件Joost。两位P2P的传奇人物表示，Joost要成为互联网上第一个传输广播级视频内容的网络电视工具。

时间： 2025-01-05 18:38:20

维基搜索收购网页的抓取器

维基搜索收购网页的抓取器的相关文章

Java---网络蜘蛛-网页邮箱抓取器~源码

构建一个高性能的网页抓取器，互联网营销

如何用python关键词搜索新浪微博并海量抓取评论？

编程-如何从网页上抓取我想要的图片?

页面数据抓取-关于网页表格抓取问题，用什么软件

java在网页上面抓取邮件地址的方法_java

网页抓取-ASP.NET网页动态抓取问题

利用Jsoup解析网页及抓取数据的简单应用

ruby实现网页图片抓取_ruby专题