搜索引擎发展历史-搜索引擎技术

   在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。

  现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
  Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
  当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
  世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
  与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。
  随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。
  然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。

时间: 2024-09-12 01:14:53

搜索引擎发展历史-搜索引擎技术的相关文章

1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门

 一: 1  搜索引擎的历史 萌芽:Archie.Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页   2  起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的,可以执行特定任务的程序 Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序   3   发展阶段:excite,galaxy,yahoo这些公司做搜索   4   繁荣:infoseek,AltaVista,Google和

搜索引擎发展的种种攻略

摘要: 目前在中国做搜索的人群估计都是痛苦的,当百度独占市场最大份额时,搜索市场的问题不仅在于如何在百度的压力下分食到更多,还在于如何营造更好的搜索引擎市场. 在人民搜索组 目前在中国做搜索的人群估计都是痛苦的,当百度独占市场最大份额时,搜索市场的问题不仅在于如何在百度的压力下分食到更多,还在于如何营造更好的搜索引擎市场. 在人民搜索组织的一次"中国搜索引擎发展战略研讨会"上,众多业界专家给出了搜索引擎发展的种种攻略,<第一财经日报>总结了一下,有七种武器. 武器一:政府协

解密搜索引擎背后的大技术:知识图谱,大数据语义链接的基石

知识图谱,也称为科学知识图谱,它通过将应用数学.图形学.信息可视化技术.信息科学等学科的理论与方法与计量学引文分析.共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构.发展历史.前沿领域以及整体知识架构达到多学科融合目的的现代理论.为学科研究提供切实的.有价值的参考. - 百度百科 实体及其之间的关系图.规模:5亿个对象,35亿个事实和关系-维基百科 知识图谱实现对客观世界从字符串描述到结构化语义描述,是对客观世界的知识映射(mapping world knowledge) 本体可以

初谈搜索引擎发展方法

 一:重复识别        互联网的信息冗余太过庞大,一篇文章被人转载成百上千次.虽然就目前的技术来讲有一定的识别技术,但是仍然显的比较无力.伪原创工具的大肆发布,蒙蔽搜索引擎的眼睛,简单的几个动作后搜索引擎便认为是一篇原创的诞生.而给予原创等同的权重,对于搜索引擎来说增加了数据量,对于站长来说来之不易的原创就如此轻易的被人"偷梁换柱",而用户角度因其伪原创将一些作者所要阐述的信息解读的莫能两可.所以无论是就:搜索引擎.站长.用户角度来说,搜索引擎对于信息冗余度原创的识别也更加专业化

搜索引擎发展现状和未来的发展趋势分析

随着互联网信息时代高度发达的今天,搜索引擎作为互联网时代占据着重要的发展地位,是人们在互联网时代最为依赖必不可少的使用工具.搜索引擎强大的搜索功 能带给人们非常方便快捷的信息数据获得渠道和帮助,这也是搜索引擎在互联网时代发展成功的最重要原因.我们可以设想一下如果没有搜索引擎的互联网,那将会 变成一个什么样子?在茫茫的互联网信息海洋中,人们就像身处巨大的茫茫黑夜之中的一个瞎子,摸不清方向,变得茫然失措不知从何下手!可以这样说,没有搜索 引擎的发展,就不会有互联网时代的诞生. 互联网搜索引擎造就了百

搜索引擎算法的分词技术

我们知道,每个搜索引擎都具有分词技术,那么关于分词技术作为SEOer的你了解多少,了解搜索引擎的分词技术对搜索引擎算法研究是很有帮助的,好,下面泰州SEO给大家讲讲什么是搜索引擎的分词技术! 要了解搜索引擎的分词技术就不能不去了解搜索引擎的索引库,因为索引库是分词技术的前提!索引库呢其实就是经过页面分类信息删选过的资料库:我们在去百度搜索信息的时候,百度搜索引擎并不是现查现找,而是搜索引擎早就把各类信息分类归档,每种分类的信息都有一个独立的资料库,而这个独立的资料库就是我们说的索引库,当我们去百

如何利用搜索引擎的消噪技术提升SEO效果

  消噪是搜索引擎预处理的一个基本步骤,指的是搜索引擎识别出页面上与主题不相关的内容,将其删除的过程.本篇刑天营销即与大家聊一聊如何利用搜索引擎的消噪技术来提升我们网站的SEO效果. 一.消噪技术的原理 对搜索引擎来说,并不是网页上的所有部分它都需要抓取,有一些部分对排名计算是没有意义的,比如导航条.版权文字说明.广告等等区块.考虑到搜索引擎需要处理的网页数量非常庞大,这部分无意义内容的绝对量也是非常大的,为了节省计算资源,提升排名计算的速度,搜索引擎在预处理时会将这些内容识别后剔除出去.这个过

搜索引擎优化法则-搜索引擎技术

1.在申请域名前就要确定你网站的主题,而且至少有100个左右与主题相关的页面:而且每个页面都应该有实际的内容.然而这只是网站设计或者说是网站优化的一个开始.2.域名问题:对于搜索引擎优化来说,申请域名的时候易记性不是最主要的,最主要的域名里是否包含了所优化的关键字.3.网页设计的思想:越简单越好,HTML代码要精简,网页内容要充实,远离花哨的东西.如 FLASH.JAVASCRIPT 等等对搜索引擎来说是不实际的东西,事实上对于浏览者来说意义也不大.要吸引浏览者最重要的是在页面颜色搭配方面多下功

邓亚萍:云计算时代的搜索引擎发展

即刻搜索总经理邓亚萍(TechWeb配图) 第四届中英互联网圆桌会议今日在北京举行,中英两国政府部门.知名互联网企业和研究机构的100 多名代表 围绕网络安全.移动互联网.数字媒体创新.数字知识产权保护等议题进行 对话交流.中国国务院新闻办公室.国家互联网信息办公室主任王晨,英国文化.媒体和体育部部长艾德·韦泽出席会议并作主旨演讲.人民搜索总经理邓亚萍参加了 下午的分组讨论,并以"云计算时代的搜索引擎发展"作主题演讲,以下是演讲全文:尊敬的各位来宾,女士们.先生们,大家好.首先欢迎远道