1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门



一:


搜索引擎的历史

萌芽:Archie、Gopher

Archie:搜索FTP服务器上的文件

Gopher:索引网页

 


起步:Robot(网络机器人)的出现与spider(网络爬虫)

Robot基于网络的,可以执行特定任务的程序

Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自动下载程序

 

3
  发展阶段:excite,galaxy,yahoo这些公司做搜索

 

4
  繁荣:infoseek,AltaVista,Google和百度

 

5  
搜索引擎的原理:

有三步


爬取资源


建立索引


用户索引

二 
搜索技术能用来做什么?

案例:


使用word中Ctrl+F进行检索:原理:从文档自上而下搜索


从windows的资源管理器中看搜索:搜索每个文件夹,检索需要的文件

C MyEclipse中的help contents:原理:站内搜索

D Baidu和Google提供互联网中各种资源的搜索:原理:垂直搜索

 

三:信息检索的过程


构建文本库


建立索引


进行搜索


对结果进行排序

 

四:倒排索引

倒排搜索区别于传统查找,传统线性查找,按照信息从前到后,依次查找(效率),倒排搜索,记录信息出现的位置,通过索引内容快速找到关键信息,类似书记的目录!

 

五:什么是Lucene(全文检索框架,apache提供)


Lucene是一套用于全文检索和搜寻的开源程式接口,能够做全文索引和搜寻,在Java开发环境里Lucene是一个成熟的免费开发源代码工具

 

B Lucene是提供了一个简单却强大的应用程式接口,能够做全文检索索引和搜寻,在Java开发环境里Lucene是一个成熟的免费的开放源代码工具。

 

 

全文检索:对数据建立全文索引,根据全文索引搜索信息

 

solr
是高性能搜索服务器,基于Lucene

 

Lucene并不是现成的搜索引擎产品,但可以用来制作搜索引擎产品

Lucene是搜索引擎的开发技术,Lucene并不是一个现成的产品

 

官网:http://lucene.apache.org

六 
什么是全文件检索

全文检索:对需要查找数据的每一个单词建立索引

 

七:Lucene快速入门(5个步骤)

A
下载Lucene的卡发包,Lucene-3.6.2.zip

B
导入jar包到工程Lucene-core-3.6.2.jar

C
将数据转换成为文档对象Document

D
建立索引Index

E
查询索引获取数据

 

 

 

时间: 2024-11-01 04:30:32

1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门的相关文章

搜索引擎算法历史对SEO的发展影响

我们知道,每个搜索引擎都有自己的搜索引擎算法,而且每个搜索引擎的算法都在不断的更新,而做SEO呢,最重要的就是要了解各大主流搜索引擎的算法,针对于他们的算法着手网站的优化!好了,下面泰州SEO跟大家分享分享,搜索引擎算法的更新对SEO的发展所造成的影响: 1994年,世界上诞生了第一家搜索引擎"雅虎",那时候雅虎搜索引擎刚问世,当时也就是一个目录,在雅虎问世后的第二年,也就是1995年,就出现了针对于雅虎的搜索引擎排名的研究,为了能在雅虎搜索引擎上获得好的排名,人们对它的算法进行了深入

SEO/SEM 搜索引擎营销行业的生存发展

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 如题:SEO/SEM 搜索引擎营销行业的生存发展(正遭受考验!) SEM/SEO行业.必须要团结统一! 行业的发展与生存 正在遭受着严重的考验! 现实确实是残酷的,互联网的飞速发展,信息传播的快递.让我们不得不了解到我们本行业那一黑暗阴深的一面.那就是黑帽SEO,黑帽SEM与那些黑帽优化公司.很多博客与论坛都是些黑帽孳生的地方,他们不断的在上

Twitter曾收购搜索引擎Summize,并成功发展其为Twitter搜索

Twitter已经完成4000万美元收购第三方客户端开发商TweetDeck的交易,交易将以现金加股票的方式进行.TweetDeck是一款Twitter桌面客户端,非常受到Twitter用户的欢迎.自从2008年成立以来,TweetDeck从The Accelerator Group以及Betaworks等投资者处获得了总计380万美元的资金.此前有消息称,UberMedia将以2500万美元至3000万美元的价格收购TweetDeck.2010年,Twitter曾收购Tweetie,将其改建为

搜索引擎的工作方式和基本的抓取原理你了解吗

摘要: 最近在看一本书,发现当我们不实践直接看原理是枯燥无味的,而实践过后反过来看原理,会觉得很多道理,很多感悟.就拿我自己做反面教材,说我是搜索引擎优化工作者,我对搜索 最近在看一本书,发现当我们不实践直接看原理是枯燥无味的,而实践过后反过来看原理,会觉得很多道理,很多感悟.就拿我自己做反面教材,说我是搜索引擎优化工作者,我对搜索引擎的工作方式和基本的抓取原理,更新策略都不懂.那么你呢?下面就分享下我的读书笔记,仅当新人扫盲. 在介绍搜索引擎爬虫的之前,首先了解爬虫把网页的分类,四种: 1,已

副总裁泄玄机:Google搜索技术揭秘-搜索引擎技术

Google将其成功部分地归功于公司所发明的独有运算机制,令其搜索引擎可以在极短时间内对数以百万计的网络用户的搜索请求提供答案. 上周三,Google副总裁Urs Hoelzle在Eclipse会议上的一番发言,令与会者有机会了解Google的搜索技术是如何产生以及该技术现在是如何运作的. Hoelzle对与会者说,要发明Google的技术,开发者必须抛弃过去大型数据库所使用技术的思维定势.由于一天里面所有搜索请求的内容都是不可预计的,因此手头上就必须拥有100亿左右的网页数据,这是确实是很大的

搜狗宣布开发新一代搜索引擎,结合浏览器和搜索技术

在2013年的11月21日,搜狗公司在当日宣布,公司正在开发新一代的搜索引擎--"探索引擎",它将会摆脱老一代搜索引擎"搜索框+关键词"的传统模式,并且将把搜索技术与浏览器结合起来,可能会颠覆目前的搜索市场格局. 而与老一代搜索引擎相比,探索搜索引擎则是将当前的浏览页面和个性化需求相结合的全网搜索系统,从而能够给互联网用户带来更贴心和智能的上网体验.打个比刚,当用户打开了浏览器去阅读一篇新闻的时候,探索引擎就会在页面下方自动推送其他网站有关这篇新闻的报道和评论;而当

美到家:用互联网思维帮助实体经营者完成生存发展繁荣问题

摘要: 12月19日消息,美妆O2O品牌美到家于近日上线,其创始人曾莞晴对TechWeb等表示,美到家平台采取与线下美妆行业合作的形式,不是要颠覆谁,而是用互联网思维帮助实体经营者,在互联 12月19日消息,美妆O2O品牌美到家于近日上线,其创始人曾莞晴对TechWeb等表示,美到家平台采取与线下美妆行业合作的形式,不是要颠覆谁,而是用互联网思维帮助实体经营者,在互联网大潮中完成它的生存发展繁荣问题. 美到家创始人曾莞晴 据了解,美到家平台今年年初立项,经过将近一年的筹备,终于上线.用户关注美到

车辆大数据在引领平安城市建设发展中的作用及关键技术

"让尊重事实.推崇理性.强调精确.注重细节的理念,贯穿公共安全工作的全过程.善于从多源的.分散的.碎片化的大数据中找到规律."--孟建柱 平安城市系统中车辆大数据的发展背景 随着经济快速发展,城市机动车保有量持续增加,不仅加大了交通管理的难度,而且涉车涉驾的案件比例也不断上升,特别是盗抢机动车辆.机动车肇事逃逸以及涉车类刑事案件,严重影响了社会治安状况,损害了人民群众利益.而随着平安城市建设的扩大深入和资源整合,公安通过自建卡口电警系统加强了车辆管控,掌握了大量的车辆卡口数据和图片.

李德毅主题演讲:为促进AI发展,将推动“智能科学与技术”成为一级学科|2016 CAIIC

雷锋网按:今日,由中国人工智能学会主办的 2016 中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典在深圳举行.其中,中国人工智能学会理事长.中国工程院院士李德毅发表主题报告<论"智能科学与技术"的学科地位>.李德毅演讲内容是人工智能学会最近七.八年来做的一项论证工作,强调当下人工智能产业发展迅速,希望把以人工智能为主的"智能科学与技术"提升为一级学科.本文由雷锋网进行整理,在未改变原意的基础上略有删减. 李德毅 中国人工智能学会理事长.中国