对大数据量建立缓存，设计到的查找排序问题

问题描述

我想对自建的简易搜索引擎的查询关键字建立缓存，将所有查询词都保存下来，并记录词频，当超过存储容量时，会根据词频替换掉词频小的查询词。要用到磁盘存储。请问应该怎么设计比较合理，效率也高呢？用哈希和归并排序可不可以呢？谢谢！

解决方案

解决方案二：
补充：是不是可以这么做：对查询词进行分类，对每个类别的查询词进行排序，得到top-k个放入内存缓存。
解决方案三：
该回复于2009-05-22 22:36:00被版主删除
解决方案四：
study
解决方案五：
好难啊，我是菜鸟
解决方案六：
kankan
解决方案七：
为什么要自己做呢，Lucene都有java和.net两个版本，有很好的相关实现，远不是楼主能够用几天的时间可以比拟
解决方案八：
kankan
解决方案九：
实现容易，就看效率了
解决方案十：
该回复于2009-05-27 16:58:42被版主删除
解决方案十一：
该回复于2009-05-27 16:58:41被版主删除
解决方案十二：
本人提供采用“内存数据库”方式实现该功能。推荐使用H2数据库的内存数据库工作模式，使用标准的JDBC技术访问，实现简单，性能应该还可以。
解决方案十三：
可以参考lucene
解决方案十四：
该回复于2009-05-23 23:26:23被版主删除
解决方案十五：
可以参考oracle的结构分sga/pga方式的缓存、安装block的方式进行存储与read，还有索引
解决方案：
不懂,mark

时间： 2024-08-01 21:11:09

对大数据量建立缓存，设计到的查找排序问题的相关文章

Mysql大数据量存储及访问的设计讨论

一.引言随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题.对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载.对于系统的稳定性和扩展性造成了极大的问题.通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式.水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失.通过负载均衡策略,有效的降低了单台机器的访问负载,降低了宕机的可能性:通过集群方案,解决了数据库宕机带来的单点数据库不能访问的问题:通过读写分离策略更

sqlserver 大数据量数据库设计问题请教

问题描述 sqlserver 大数据量数据库设计问题请教小弟不才,第一次接大数据量项目,其中一个主要表用于存储采集数据(每秒一条数据,共5个采集点)数据量如下: 数据量估算(按秒): 采集点 1 5 一天数据 86400 432000 十天数据 864000 4320000 一个月数据 2592000 12960000 一年数据 31536000 157680000 我原先的设计就是很简单,按照上面数据估算,5个采集点,建立5个对应的表,然后每十天(也就是旬)创建一个历史表保存数据. 但是,头

利用Cache缓存数据DataTable数据提高大数据量访问性能

cache|访问|缓存|数据|性能引言:在数据量不大的情况下,程序怎么写基本上性能差别不大,但是当我们面对数以万计的数据的时候,我想性能就是个不得不考虑的问题了,每写一个方法,每填充一笔数据都要考虑到性能问题,否则服务器将承担巨大的执行开销,如果服务器性能不好可能立即就死在那里了,所以在大数据量频繁访问的页面上,我们就必须考虑如何提高页面的性能了,本文将提供一种用cache提高访问性能的方法来解决此问题,在很大程度上提高页面加载数据的性能.本文列举的是论坛版块中帖子列表页面加载数据的实例.正文

大量数据-solr设计大数据量索引删除问题

问题描述 solr设计大数据量索引删除问题 solr索引了大量数据,随着时间的累积,数据量越来越大,根据时间来删除历史数据,用deletebyquery来删除的话 ,执行时间过长,最后optimize的时间也很长,易用性不是很好.有什么好的方法来解决删除历史索引这个问题吗?

大数据量下的数据库查询与插入如何优化？（整理）

数据库经常要做一些查询与插入,但是如果查询和插入的数据量过大的时候就会引发数据库性能问题,降低数据库工作效率.因此性能调优是大家在工作中都能够预见的问题,大到世界五百强的核心系统,小到超市的库存系统,几乎都会有要调优的时候.面对形形色色的系统,林林总总的需求,调优的手段也是丰富多彩. 1.尽量使语句符合查询优化器的规则避免全表扫描而使用索引查询 2.避免频繁创建和删除临时表,以减少系统表资源的消耗. 3.尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理. 4.建立高效的索引

大数据量下高并发同步的讲解（不看，保证你后悔）(转)

对于我们开发的网站,如果网站的访问量非常大的话,那么我们就需要考虑相关的并发访问问题了.而并发问题是绝大部分的程序员头疼的问题, 但话又说回来了,既然逃避不掉,那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧. 为了更好的理解并发和同步,我们需要先明白两个重要的概念:同步和异步 1.同步和异步的区别和联系所谓同步,可以理解为在执行完一个函数或方法之后,一直等待系统返回值或消息,这时程序是出于阻塞的,只有接收到返回的值或消息后才往下执行其它的命令. 异步,执行完函数或方法后

大数据量下MySQL插入方法的性能比较

文章讲的是大数据量下MySQL插入方法的性能比较,不管是日常业务数据处理中,还是数据库的导入导出,都可能遇到需要处理大量数据的插入.插入的方式和数据库引擎都会对插入速度造成影响,本文旨在从理论和实践上对各种方法进行分析和比较,方便以后应用中插入方法的选择. 插入分析 MySQL中插入一个记录需要的时间由下列因素组成,其中的数字表示大约比例: ·连接:(3) ·发送查询给服务器:(2) ·分析查询:(2) ·插入记录:(1x记录大小) ·插入索引:(1x索引) ·关闭:(1) 如果我们每插入一条都

php 大数据量及海量数据处理算法总结_php技巧

下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论. 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明

大数据量，海量数据处理方法总结_数据库其它

下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论. 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明

猜你喜欢

如何进行无线网络信号设置

好多朋友都在使用无线上网,随着无线技术的发展,802.11N标准已经成为无线路由设备与接入设备必备的一项服务标准,其良好的技术优势让之前的协议都无法比拟,无论是安全性还是实用性都拥有了一次全新的升级, ...

网络安全学习笔记

跨站脚本攻击(XSS Cross Site Script) 一.定义:黑客通过"HTML注入"篡改了网页,插入了恶意的脚本,从而在用户游览网页时,控制用户游览器攻击的一种 ...

自定义UINavigationBar的背景【转】

from:http://cocoa.venj.me/blog/custom-navbar-background/ 为了让我们的应用程序更加美观,我们往往希望对iPhone自带的控件进行一点自定义.比如 ...

Asp用存储过程实现数据分页

一.创建表 tiku_koushi if exists (select * from dbo.sysobjects where id = object_id(N'[dbo].[tiku_koushi] ...

MSN还要抄袭QQ什么？

已经对MSN很失望了,但正如胜总所言,很多的客户都在MSN上煎熬着,也只能陪着继续煎熬了. 今天忽然发现KESO上了MSN,很是惊讶---因为他已经公开抛弃MSN两年半了.究其原因,竟是改用了MAC ...

高质量外链你知多少

外链这个话题依旧是seoer们讨论的热点,但是我们整天在做的外链和所谓的高质量外链你究竟了解多少呢?你知道外链究竟会带来怎样的作用?小编为你详解高质量外链和外链在seo中的作用. 有图有真相,本人在A ...

用Maya的粒子来制作动态的Logo

原始链接:http://cg.tutsplus.com/tutorials/3d--icles-in-Maya/ 原作者:Abed Ibrahim 使用软件:Maya 在本教程中,我将给大家讲解一下如 ...

（汇编源代码）侦测CPU型号

_PROCESSOR DETECTION SCHEMES_by Richard C. Leinecker [LISTING ONE] ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; ...

C# richTextbox的字体格式和颜色

[关于字体格式] 设置的是第一个字符的颜色,这时richtextBox的rtf中记录下位置0的颜色,重置text时,在rtf中的位置从位置0开始,因此颜色还是Color.Red,第三次也应该同样如此 ...

详解Java语言中内存泄漏及如何检测问题

Java的一个重要优点就是通过垃圾收集器(Garbage Collection,GC)自动管理内存的回收,程序员不需要通过调用函数来释放内存.因此,很多程序员认为Java不存在内存泄漏问题,或者认为即 ...

美图看看批量编辑图片技巧

美图看看这样简单好用的工具,不仅可以方便快捷的看图选图,图片的批量编辑也是一把好手哦! 实用功能:全格式兼容编辑图片批处理要实施图片编辑先要软件"认识"图片格式才行,如果一个 ...

ADO.NET批量更新操作

批量更新操作 .在上一个版本的ADO.NET当中,SqlDataAdapterde的Update方法将会为 DataSet当中的每一行调用一次更新操作 .在ADO.NET2.0中,您可以设置Upd ...

excel2016表格如何制作双环饼图

1.选中表格的数据区域,点击插入,选择推荐的图表.然后点击图表工具,在设计选项中选择数据. 2.进行图例项(系列)设置,点击添加,选择系列值(选中营业额). 3.右击,然后更改系列图表类型,选择系 ...

减少Linux内核空循环,降低系统能耗技巧

如果不花更多的时间看表,你将有更多充裕的时间. 通俗地讲,这就是Linux内核中一个重要变化的基本原理,编程人员希望这一变化能够提高Linux的效率.新版Linux操作系统将采用"tickl ...

如何更改IE11 中的主页

解决方案: 更改 Internet Explorer 中的主页设置主页,以便在每次打开 Internet Explorer 时都会打开你经常访问的网站并等候你的浏览. 添加或更改主页的步骤 1. ...

win7显卡硬件加速怎么开启

在我们看电影或玩游戏的时候,如果显卡支持硬件加速的话,速度和效率都会提升很多,最近有朋友问小编说不知道win7显卡硬件加速怎么开启,本文就以win7为例介绍一下显卡硬件加速的设置方法. 注意事项要支 ...

Beyond Compare输出窗格中显示行号方法

Beyond Compare输出窗格中显示行号方法步骤一:打开Beyond Compare软件,在主页面左侧"新建会话"目录中,选择"文本合并&qu ...

开机出现提示Track 0 Nad，Disk Unusable

系统启动后,屏幕上出现了错误信息Track 0 Nad,Disk Unusable的提示,无法进入系统中. 由于硬盘的零磁道上存储着引导数据,当零磁道出现物理损坏后,硬盘就无法使用了.但零磁道损坏 ...

企业安全拥抱开源之FREEOTP部署实战

企业安全拥抱开源之FREEOTP部署实战.安全建设过程中,总体预算.投入产出比均是首先需要考虑的问题,缺少具备开发能力的人员.缺少资金预算的情况下,开源产品就成了必然的选择. 0×01 前言虎符是古 ...

移动客户端测试总结

LOFTER现在提供iOS.AOS等多个平台的移动客户端服务,这两个端也已经相继开发了几个版本,最近开发的2.0版本即将上线,测试了这么久也该总结一下了. 现在我们测试时,开发会先在本地机上打好包,然 ...

《开源思索集》一Java社群该向Ruby on Rails学习些什么？

Java社群该向Ruby on Rails学习些什么? 开源思索集软件开发者是分社群的,大多数时候都是按照语言来划分大的派别,门派不同的人,很少相互交流--"跟那种用XXX的有什么好说的& ...

具有企业特色的ChatOps平台

Operable.io公司(创建了DevOps协作工具),近日宣布发布Cog --一个新的ChatOps平台,该平台提供了访问控制,类Unix系统流水线命令以及审计日志功能.ChatOps是一个帮助包 ...

ip 文件系统-NFS文件系统挂载IP问题

问题描述 NFS文件系统挂载IP问题求牛人指教,图上ip要如何修改呢!为什么不是设置环境变量中的ip地址,变成了192.169.0.0,崩溃!

公共云桌面:上海电信迈向“云”的第一步

当前,随着IT产业的不断发展,云计算已经成为当前乃至未来的热点技术趋势,同时也是运营商凸显服务差异化的关键.中国电信上海公司是主要经营固定电话.移动通信.卫星通信.互联网接入及应用等综合信息服务的企业 ...

山东电信3G4G一体化套餐多人共享话费送流量

(手机中国济南行情)中国电信4G已经在全国16城市正式启用,新增了以177开头的4G专用号段,新用户可以直接购买,电信老用户可直接不换号升级为4G套餐.据山东电信网厅提供消息,18日起,山东电信网上 ...

特立独行 “免费”和“开源”都是浮云

本文讲的是特立独行 "免费"和"开源"都是浮云,在安全软件厂商360的免费模式之后,杀毒软件市场一直硝烟弥漫,近日,金山在宣布旗下安全产品全线免费战略后,又宣布 ...

光伏企业三季报分析：抢装潮后需求疲软业绩大幅缩水

截至11月29日,主要境内外光伏上市公司三季度业绩报告显示,净利润相较今年第二季度全部下滑,下跌幅度从16.6%到292.7%不等.从强劲到疲软,这一市场变化的直接原因是"6.30" ...

操作系统中并发与共享的问题

问题描述操作系统中并发与共享的问题并发与共享的问题:并行程序访问共享数据问题举例:(count为共享变量初值=300) Program A: - N=count N=N+100 count=N - ...

Python 进阶_闭包 &amp; 装饰器

目录目录闭包函数的实质和属性闭包有什么好处小结装饰器更加深入的看看装饰器的执行过程带参数的装饰器装饰器的叠加小结装饰器能解决什么问题小结闭包 Closure: 如果内层函数引 ...

亚马逊Echo为陌生人打开更多的大门

科学的存在总能让想象转化为现实,例如,飞机火箭之于天空,船舶潜艇之于海洋.然而也正因如此,越来越多的人开始担心所谓的"智能":我们是否会为一种更高科技.更智能的生活付出昂贵的代价? ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.