维基搜索收购网页的抓取器

据国外媒体报道,维基百科创始人吉米·威尔斯今年有一个宏大的计划,就是开发开源、开放的搜索引擎维基搜索,这一项目被誉为今年国际互联网的两个黑马产品之一

。周五,威尔斯透露了这一项目的一些进展。

据称,他已经收购了一家拥有抓取技术的公司,另外,维基搜索将依靠成千上万的用户电脑来分布式地抓取网页,而不是构建自己的“蜘蛛”服务器群。

  威尔斯表示,他正在把若干个技术模块组建成完整的维基搜索,预计到今年年底,维基搜索将会提供一个公开测试版,这一依靠人工编辑优化网页搜索结果的全新搜索引擎将对Google公司和雅虎公司发起挑战。

  威尔斯是周五在美国俄勒冈州举行的一次软件开发工程师会议上作出上述披露的。他说,他旗下的营利性企业维基公司(Wikia)已经收购了一个技术先进的网页抓取工具,名为Grub。维基搜索将利用这一工具对网页进行索引。

  据报道,威尔斯从加州旧金山一家名为Looksmart的公司收购了Grub工具。这一工具最初是一个开源软件项目,可以提供免费的下载,不过后项目终止,并最终被维基搜索收购。目前,威尔斯和这家公司都没有披露交易价格。

  威尔斯说,未来Grub项目仍将保持开源属性,任何程序员都可以对这一工具进行修改和优化。

  Looksmart公司的主要业务是网络广告代理。上周,该公司宣布,他们已经和威尔斯达成协议,将代理旗下营利性网站的广告位。此前,维基公司旗下营利性网站的广告都来自Google公司。不过,维基百科作为维基基金会的免费项目,并不会插入显示广告。

  和Google、雅虎的网页抓取技术不同,Grub采用的是分布式技术,任何志愿人员可以下载这一工具,然后利用他们空余的计算机时间来帮助维基搜索从事网页抓取的工作,这些抓取的网页将提交到维基搜索的服务器上。这样维基公司将可以大大降低搜索引擎运营的成本。

  此前,威尔斯已经对外透露,和目前的搜索引擎不同的是,维基搜索将会学习维基百科的运作模式,依靠成千上万的人工编辑对于网页结果进行质量评估,从而将搜索结果进行优化。他认为,通过这种方式,可以终结目前在Google中搜索到大量无关网页结果的局面。当然,搜索过程还将依靠复杂的计算机算法,人工将只针对网页的质量。

  在搜索算法方面,威尔斯表示,他们将采用另外一个开源的软件,名为Lucerne。他说,维基公司的工程师计划对这一软件进行增强。

  值得一提的是,维基搜索并非免费项目,而将是一个商业搜索引擎,威尔斯将会在搜索引擎中启动搜索广告。威尔斯表示,如果搜索引擎运营成功,也将对维基百科免费服务提供资金上的支持。

  分析人士认为,维基搜索将是一个带有WEB2.0特色的网络搜索引擎。除了这一产品之外,今年被誉为黑马的另外一个互联网产品是Skype创始人曾斯托姆和弗里斯创建的P2P网络电视软件Joost。两位P2P的传奇人物表示,Joost要成为互联网上第一个传输广播级视频内容的网络电视工具。

时间: 2024-10-29 05:41:32

维基搜索收购网页的抓取器的相关文章

Java---网络蜘蛛-网页邮箱抓取器~源码

刚刚学完Socket,迫不及待的做了这个网页邮箱抓取~~~ 自己以前做过微商,而且还掏钱买过抓取网络邮箱的软件~现在O(∩_∩)O哈哈~我自己做~当然啦,没有别人做得好~只是功能还是差不多啦~ 给一个带协议的网站~然后深入网页中查找邮箱~ 因为博主知识有限~线程池目前还没有学~导致无法控制线程~~~见谅~ 还有~就是没有设置停止按钮~也是因为没学线程池~水平不够啊~ 只能关闭软件来停止程序~ package cn.hncu.bs; import java.io.BufferedOutputStr

构建一个高性能的网页抓取器,互联网营销

  互联网的发展,使人类提前进入了信息爆炸的年代,在浩瀚无边的信息海洋里,如何快速.准确找到对自己有用的信息,就成了一个很有价值的研究课题,于是,搜索引擎应运而生.现在,国内外大大小小的搜索引擎有很多,搜搜也是这搜索引擎大军中的一员悍将.笔者有幸参与了搜搜研发过程中的一些工作,在这里写一些自己的理解与看法,权当是抛砖引玉,希望能够得到业内前辈们的一些指点. 对于网页搜索引擎来说,它的基本处理流程,通常可以分为三个步骤:一是对海量互联网网页的抓取,也称下载:二是对已下载的网页进行预处理,包括抽取正

如何用python关键词搜索新浪微博并海量抓取评论?

问题描述 如何用python关键词搜索新浪微博并海量抓取评论? 各位大牛好,我想用python做一件事:在新浪微博上用关键词搜索微博,并尽可能多地抓取相关微博,然后抓取其评论,并进行文本分析.现在得知可:1.用API接口.但是我不知道个人可不可以申请使用,是不是要创建应用,审核通过才行?那么创建哪种应用好?万一审核不过怎么办?用SDK的话,怎么使用?是不是只有自己的微博的评论才能抓取啊?.2.用爬虫,模拟浏览器行为.据说抓得多了会被封号.要怎么办?另外,新浪微博有原创.评论.转发.评论后转发--

编程-如何从网页上抓取我想要的图片?

问题描述 如何从网页上抓取我想要的图片? 例如上面是腾讯搜狗问问个人中心的画面我想要里面的图片可以抓到吗? 解决方案 直接用IE F12,找到图片元素,得到地址,就可以抓.也可以另存为网页,然后在文件夹中找.

页面数据抓取-关于网页表格抓取问题,用什么软件

问题描述 关于网页表格抓取问题,用什么软件 我要抓取的是一个系统内部网页,不能外部访问,数据表格的链接插入有插件.怎么能实现动态抓取??大神啊 解决方案 用抓包的方法最好,然后再分析数据,如果不行,可以考虑用webbrowse这个控件,里面的内容也比较好抓取

java在网页上面抓取邮件地址的方法_java

本文实例讲述了java在网页上面抓取邮件地址的方法.分享给大家供大家参考.具体实现方法如下: 复制代码 代码如下: import java.io.BufferedReader;  import java.io.InputStreamReader;  import java.net.URL;  import java.util.regex.Matcher;  import java.util.regex.Pattern;    public class h1  {     public stati

网页抓取-ASP.NET网页动态抓取问题

问题描述 ASP.NET网页动态抓取问题 本人在做网页抓取程序,由于抓取的内容,源代码里是看不到的, 用WINFORM是可以用WebBrowser这样实现的..我想知道用ASP.NET的话,有没有能达到这个效果的方法, 我试了 HttpWebRequest,, 但是没找到操作DOM元素的方法. 解决方案 获取出来的是html文本,你可以用正则表达式过去想要的内容! 解决方案二: 如果你需要用DOM,可以用HtmlAgilityPackhttp://htmlagilitypack.codeplex

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便 只需引进依赖 例如 <dependenc

ruby实现网页图片抓取_ruby专题

前段时间看到很多人写的下妹子脚本,自己也写一个 module CommonHelper require 'nokogiri' require 'open-uri' def down_load_xmz site_url = "http://www.xxx.com" for index_page in 1..141 doc_html = Nokogiri::HTML(open(site_url+'/share/comment-page-'+index_page.to_s)) doc_htm