浅谈搜索引擎所面临的挑战有哪些

  1、 页面抓取需要快而全面

  我们知道,互联网是一个动态的内容更新,每天都会有很多人在互联网上发布新内容,或者更新老内容,搜索引擎就是要从这些海量的信息中抓取最符合用户搜索意图的网页,面对已经存在的海量信息而且每秒钟还在几何级增长的信息量,搜索引擎的工作量是非常大的,搜索引擎程序每更新一次程序要花许多时间的,特别是在刚诞生的时候,更新的周期8630.html">有时候竟然能达到几个月更新一次,试想一下,在几月内又会有多少网页更新和新产生了呢?这样的搜索结果往往是滞后的。

  要想返回最好的搜索结果,搜索蜘蛛必须抓取尽量比较全面的网页,这就需要搜索引擎解决许多技术上的问题。也是它面临的主要挑战。

  2、 海量存储数据

  互联网上的信息是巨大的,大的几乎你不能想像,而且每天还会有许多新的信息产生,搜索引擎再抓取了这些页面后,还必须以一定的数据格式存储起来,数据结构要求合理,而且要具备非常高的扩展性。数据写入速度要很快,访问的速度也经足够快。

  搜索引擎除了要存储大量的页面本身信息外,为了更好的进行索引及排序,还必须要存储页面与页面之间的链接关系,页面的历史数据,以及许多索引信息。这些数据量都是非常巨大的。这样大规模的数据存储和读取肯定存在很多技术方面的挑战。

  3、 索引处理快速有效,而且要有可扩展性

  搜索引擎将页面数据抓取和存储后,还要进行许多页面的索引处理。例如页面之间链接关系的计算,正向索引、反向索引等。例如还有谷歌的PR计算等,搜索引擎必须进行大量的索引工作才能快速的返回搜索结果,而且进行索引的过程中,还有大量的新页面在产生,搜索引擎的索引处理程序还要有比较好的扩展性。

  4、 查询处理快速准确

  前边那几步都是在搜索引擎的后台程序运行的,而查询阶段是用户能够看到结果的一个步骤。我们在搜索引擎的搜索框中输入关键词点击搜索后,往往不到一秒钟时间搜索引擎就能够返回结果给我们,虽然表面看起来简单,可是对于搜索引擎来说,却是一个非常复杂的过程。里边牵涉很多算法。它需要在不到一秒的时间内快速从符合基本条件的网页中找到合理的页面,排名在搜索引擎的前边。我们知道,百度是最多我们可以看到76页的结果,谷歌要多一点,可以看到最多100页的结果。文章来源:http://www.suptb.cn/转载请注明出处,谢谢

时间: 2024-11-04 17:42:32

浅谈搜索引擎所面临的挑战有哪些的相关文章

浅谈互联网医疗面临的挑战

近来,国家卫计委.各级卫生机构以及社会各相关方面不断推出"互联网+医疗"的红利政策.如国家卫计委制定的信息消费.人口健康信息化等系列政策,国家食品药品监督管理总局发布的关于互联网食品药品的管理办法,国家对远程医疗.医生多点执业."互联网+"等行动方面推出了相关的指导意见等. 互联网医疗 不能否认,新政策的出台对互联网医疗的发展将起到巨大的作用,但实际上,远远早于互联网医疗概念的健康教育.预约挂号.疾病风险评估.即时在线咨询.远程放射.远程病理.远程手术示教等医疗服务

浅谈搜索引擎的工作原理及未来算法调整方向

在A5站长网上摸爬滚打了多年了,期间也写了好几篇的文章,其中有一篇<浅谈地方汽车门户网站运营的四个问题>还被推荐到了首页,我发给我们的朋友看的时候,大家对我这个曾经的菜鸟也开始刮目相看了,这让我本人在这段时间身心都愉悦的很,现在又忍不住在A5上发表一下我对搜索引擎工作原理及算法上的认识,可能比较的浅陋,但是有了想法,不吐还是不快的! 做网站SEO是一个非常枯燥的过程,很多人估计除了吃饭睡觉剩下来的时间就奉献给了电脑了,这样怎么能够把身体搞好呢?这不现在每天爬六楼都累得不行,这对于一个大小伙子实

浅谈行业网站面临的危机 如何更好的发展

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 说起电子商务,不得不提阿里巴巴,这个带动人们将眼光转向网络,带领企业或个人开展电子商务的开拓者,如今也在做相关战略性的调整,试图打通整个的贸易流程:交易,物流,诚信,外包服务等等,提倡工作在阿里的概念.如今的环境已不是停留在利用信息部对称而只做信息服务的时代,那我们这些个人奋斗的站长在这产业升级中应该怎样更好的维护自己的利润和网站的良好发展呢

从Facebook的TIP计划谈通信设备商面临的挑战

在近日的Big Communications Event(BCE)大会上,Facebook表示,Telecom Infra Project(TIP)计划正蓄势待发,期望将硬件和软件开源带给电信网络. 同时宣布了TIP成员,包括Axiata集团Berhad/Axiata Digital.西班牙电信(Telefonica).Acacia.ADVA.Bluestream.博通(Broadcom).Coriant.Deloitte.瞻博网络(JuniperNetworks).MTN集团.Indosat和

浅谈搜索引擎分析关键词的工作原理

搜索引擎的横空出世,让我们更容易使用互联网,十年前的信息爆炸言论现在已经基本停息,这些都归功于搜索引擎,因为信息再多,已经有搜索引擎帮我们分类整理,我们想要的时候只要输入相关的关键词就能够找到相应的信息,就不会再存在那种信息爆炸式的状态,找一个信息会把一个人折磨的半死!可见搜索引擎的贡献和作用是多么的巨大! 我们平时找信息都是通过输入数据来获得,也就是我们常说的关键词,搜索引擎对于输入的关键词是如何工作的,是直接通过这个词来找,还是要把这些词分开,进行相关的比对再从数据库中找,然后再根据这次词来

浅谈搜索引擎营销与微博营销的前景分析

说起微博,大家第一时间想到的就是新浪微博,说起新浪微博就会说起姚晨,说起姚晨就会说起微博营销.众所周知,新浪微博09年下半年正式上线,姚晨是最早进驻新浪微博的明星之一.在新浪微博上,姚晨走的是亲民路线,再加上姚晨的微博内容偏文艺范儿,因此姚晨借助微博火了起来,水到渠成的成为"微博女王".粉丝数高达两千多万,也就是说姚晨发布的一条微博比得上一家上星卫视.因此,很多人想到了这里面强大的广告市场. 一时间形成了"微博热"现象,说到微博很多人对它推崇之至.微博传播速度特别快

浅谈搜索引擎如何检测网站的用户体验度

网站的用户体验是关系一个网站的质量问题的重要标准之一,也是搜索引擎判断网站权重的一个重要因素.今天在这里,恰维网络(www.qiawei.com)就搜索引擎如何判断网站的用户体验来进行简单的研究分析. 搜索引擎作为一种机器,它没有人一样的大脑,去分析判断,它所具有的就是一些机制,这些机制就是搜索引擎研发人员开发的,我们只要研究好搜索引擎研发人员的机制就能把网站的用户体验提升上去.恰维网络最近发现搜索引擎分析网站的用户体验主要通过以下几点. 第一,网站的跳出率.这个跳出率的问题,我相信大家也都明白

浅谈搜索引擎自然排名(SEO)优化及其重要性

"我的网站已经运营了好几年,但还是难以自负盈亏." "我们站点的开销比其他投资小得多,却带来了超过30%的收入." 这两个真实的互联网体验之间有着天壤之别,但是它们却反映了每天精疲力尽的网络幸存者的真实情况.成功是根据不断变化的环境多次调整的结果.大部分公司的命运都危如累卵,只有少数的人把握问题的全景.更少的人认识到根本的解决方案是运用网站优化.搜索引擎市场营销(Search Engine Marketing, SEM).自然搜索引擎优化(SEO)和点击付费(PPC

浅谈搜索引擎日志分析

对于网站优化来说,搜索引擎日志分析是必不可少的一块,无论你是收录上百的小型网站,还是收录上百万的大中型网站,SEO要想做得好,都必需进行科学的日志分析,日志是发生在网站服务器上的所有事件的记录,包括用户访问记录,搜索引擎抓取记录,对于一些大型网站来说,每天的日志都有好几个G大小的,我们可以使用linux命令去进行分离的,在大型网站日志文件往往是机密文件,一般人是看不到的,因为从日志里边可以分析访客趋势.地区趋势等,我们做SEO的不需要那么多数据,我们只要分析搜索引擎的抓取记录这一块就可以了,所以