将Internet倒转过来

利用开源的 Apache Solr 搜索引擎构建 RESTful 基础存储服务

前言

搜索引擎已经成为我们生活的组成部分,对很多人来是已经是每天生活 的必须品。无论是 Internet 的搜索引擎,例如 Google、Yahoo 们,还是服务于企业的 私有搜索引擎,它们都已经成为我们获得信息的必要手段。搜索引擎优秀的检索性能无 疑曾经、且还在给我们留下越来越深刻的印象,而搜索引擎整合各种各样资源的能力同 样令我们刮目相看——无论是私有的数据库、还是晦涩的文件服务器,甚至 是您的桌面系统。搜索引擎是如此的令人印象深刻,那么作为最贴近我们人类思维方式 的一种服务形式,它在随时随地、快捷的为我们检索信息以外,搜索引擎还可以为我们 做什么?

问题的提出

想象一下每天都在发生改变的 Internet:每过一天 ,就会有越来越多的容纳人类智慧财富的网站、网页连入 Internet 与人分享;每时每 刻都有大大小小、各种搜索引擎的爬虫们(Crawler)不知疲倦的访问各个 Internet 站 点,它们读取、下载网页后,根据越来越复杂的索引技术对其进行分析,将分析结果缓 存下来,为各种各样检索需求提供高性能的服务。

Internet 中每个网页除了自 身包含的内容以外,还有各种各样指向外部资源的链接,这些外部链接资源所包含的内 容一般是链接源页面的内容的补充、详细说明或参考资源,这些外部资源页面本身同样 也会包含有指向其他资源的链接,外部链接的页面内容和链接源页面内容一起,描述某 一个主题。实际上,只要 Internet 上的每个网页都有通向外部资源的链接,那么随便 从哪个页面开始,遍历所有的链接,就可以访问到 Internet 的每个网页。

互联 网存储了各种各样的海量资源,而搜索引擎给我们提供了访问这些资源的接口,不过这 个接口现在只能提供检索服务,那么一个很简单的问题是自然而然的:搜索引擎是否还 可以为我们提供存储服务?假如现在我们把 Internet 倒过来——想象一下 :如果搜索引擎不仅仅提供检索各个网页信息的服务,还提供将信息存储到 “Internet 的各个网页”的服务,即将各个站点、网页作为存储信息的容器 、来提供信息存储服务,那么这是不是一个理想的分布式、近乎无限扩展的基础存储服 务系统?

灵感来源

让我们先看看人类的大脑结构,虽然现阶段人类对大 脑的结构和运作方式的了解还不是那么全面,但是最基本的结构我们还是知道的:人类 的大脑中有数千亿的神经元,各个神经元可能同数以万计的神经元通过树突、轴突连接 。当外界的刺激信号传递到某一个神经元时,根据树突和轴突的阀值,受刺激的神经元 可能会将刺激信号传递到与之相关的其他神经元,以此类推,很显然,这是一个类似链 式反应的系统。可能随便一个简单的外界刺激信号,就会引起大脑中无数的神经元产生 各种各样的信号,这些信号在传递和交互过程中互相作用和影响,这大概就是人类智慧 的来源吧。如果把 Internet 中的每一个网页看作大脑中的一个神经元,而网页中通向 外部的链接相当于神经元之间的联系(例如树突和轴突),那么 Internet 也就可以看 作是人类智慧的存储系统。

本文的目的

本文对使用搜索引擎作为存储服 务的思路的实现方法做了简单的分析,并基于开源的 Apache Solr 项目构建一个基础存 储服务系统,在此基础上结合一个很简单的 BLOG 网站的例子对存储服务的结构和使用 进行了说明。希望本文所探讨的思路能对那些迫切需要大规模、高扩展性存储服务的应 用有所启发。

基于搜索引擎的基础存储服务

为了说明基于搜索引擎的基础存储服务的构成 ,首先需要对搜索引擎的角色变化有所了解:

图 1. 传统的网络服务中搜索引擎 扮演的角色

时间: 2024-09-10 12:12:45

将Internet倒转过来的相关文章

怎样设置局域网通过LAN与Internet的连接方法

[方法一] 如果是第一次使用浏览器. 第一步:启动Windows操作系统,在桌面上双击,或在任务栏上单击"Internet Explorer"浏览器图标. 第二步:在对话框中选择"通过局域网(LAN)连接",单击"下一步". 第三步:出现设置代理服务器参数的对话框.通过局域网上网,连网的计算机要通过其中的一台接人Internet.这台计算机具备与Internet连接的硬件和软件条件,比如具备调制解调器,电话线和拨号连接等,在功能上这台计算机承担了

设置局域网与Internet的连接方法

局域网组建之后,我们需要和互联网连接,那么我们如何实现局域网与Internet的连接呢?下面是具体的方法,希望对您有所帮助! [方法一] 如果是第一次使用浏览器. 第一步:启动Windows操作系统,在桌面上双击,或在任务栏上单击"Internet Explorer"浏览器图标. 第二步:在对话框中选择"通过局域网(LAN)连接",单击"下一步". 第三步:出现设置代理服务器参数的对话框.通过局域网上网,连网的计算机要通过其中的一台接人Inter

Win8IE浏览器internet选项和加载项如何设置

  在win8系统下使用IE是很多用户会去执行的操作,就像win7 64位旗舰版那样.而对IE浏览器进行清理.添加受限的站点.管理加载项.默认网页搜索引擎和跟踪保护等等设置是很有必要的,这样可以提高IE浏览器的使用效率,下面给大家介绍下IE浏览器internet选项及加载项相关设置教程. 设置方法/步骤: 1.打开"internet"."常规"."删除",勾选"保留收藏夹网站数据"选项; 2.在选项卡里面选择"始终在

安装IE8提示“Internet Explorer安装尚未完成”

  随着现在网站所加载的JS脚本文件越来越多,如果你还是使用IE6浏览器的话,不免会经常遇到浏览器崩溃的情况,而且崩溃以后还不能自动恢复网页,这已经成了IE6的不治之症. 如果想要有效的解决这个问题,小编建议你可以将浏览器升级到IE8就可以解决这些问题了.当然有条件可以升级到IE9/IE10最好,不过这两个版本仅支持Windows 7及以上版本,XP系统无法支持. 我们今天要说的问题是有网友在安装IE8的时候却遇到了故障,就是在安装的过程中每次都提示"Internet Explorer安装尚未完

IE“Internet 选项”无法打开提示“由于该计算机受到限制本次操作已被取消”

  正常情况,打开IE浏览器,单击"工具"菜单--"Internet 选项",可以对浏览器进行各种设置,比如默认主页.清理缓存.安全.IE功能的开启或禁用等设置. 可部分用户单击 "Internet 选项"以后却出现如下报错,"由于该计算机受到限制,本次操作已被取消.请与您的系统管理员联系". 一般出现这样的报错,最可能的因素就是组策略的相关设置被意外篡改了.我们可以通过找到管理该选项的对应策略并更正,来解决该问题,这里以&q

Windows 2000中Internet连接共享组网手记

介绍 ICS(Internet连接共享)是Windows 2000内置的一种网络连接共享服务,它可以使家庭网络或小型办公室网络用户非常容易的连接到Internet. 要使用ICS,有几点需要注意: (1)启用ICS的计算机必须具有两个网络接口:一个连接到内部局域网,通常是网卡:一个连接到Internet,通常是Modem或ISDN接口. (2)要配置ICS,必须具有Administrators组权限. (3)ICS设置完成后,本地的网络将使用动态的地址分配机制,因此不应该将此功能与其他Windo

Windows 2000 建立Internet连接

window 在使用Internet之前,还必须建立Internet连接.否则,即使用户的计算机同Internet连接起来,也无法进入Internet,获取网络上的信息.不过,要建立Internet连接,用户需要为自己选择一个服务提供者( I S P),并请求用户帐号. 由于上网是按时间计费的,所以在选择计算机与Internet的连接方式时,必须考虑连网的性能与价格比,以求花费最少的金钱获得最大的收效.对于大型企业来说,需要多个用户共享一条Internet线路,最好使用专线连接,可以使这些用户通

360极速浏览器Internet选项在哪?

360极速浏览器简介 360极速浏览器是一款极速.安全的无缝双核浏览器.它基于Chromium开源项目,具有闪电般的浏览速度.完备的安全特性及海量丰富的实用工具扩展.它继承了Chromium开源项目超级精简的页面和创新布局,兼顾国内互联网应用.此外,为了更适合中国国内的用户使用,它加入了鼠标手势.超级拖拽.恢复关闭的标签.地址栏下拉列表等实用功能,配合原有Chromium的顺滑操作体验,让用户浏览网页时顺畅.安心. 360极速浏览器Internet选项在哪? 360极速浏览器和谷歌浏览器类似,并

无internet访问权限解决办法

再次诅咒万恶的协同拨号... 为了突破协同拨号器的限制.寝室网络采用wifi共享方式共享网络带宽.但是有windows 7的系统链接到共享wifi时出现无internet访问权限,或者访问受限等问题无法连接成功. 查看网络驱动,驱动正常. ipconfig查询IP地址,发现无线网卡IP地址已经存在,但是网关没有分配.更改不同的网络,发现无论是CMCC还是共享wifi,IP地址始终不变. 查看网络链接中的设备,发现只有发出包,没有接受到包.禁用无关网络设备,去掉无线设备中一些无用的协议,依然没有用