大数据-X亿级数据检索速度优化难题，高手进

问题描述

X亿级数据检索速度优化难题，高手进

各位高手，目前碰到一个X亿级数据检索速度优化的难题，大家帮看看怎么解决。

涉及到的表有：
KeywordIndex：2.7亿条记录
Original：1014万条记录

KeywordIndex表包括四个字段，ID（PK,int）、KeywordID（int）、OriginalID（int）、ColumnID（int）
建立的索引：
PK_KeywordIndex（[ID] ASC）
IX_KeywordIndex_KeywordID（[KeywordID] ASC，包含[OriginalID]列）

业务需求是从KeywordIndex表中查找到同时符合多个KeywordID的记录（交集），然后根据这个交集从Original表中取出相应记录、排序后取出前X条

基本的语句如下SELECT * FROM ( SELECT OuterID AS ResultID, ROW_NUMBER() OVER(Order by Weights Desc, ProAddtime Desc) AS RowNum FROM Original Where
ID IN (
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1933
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1932
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1934
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1935
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1931
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 14
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 21
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 20
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 23
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 22
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 24
) ) AS T WHERE RowNum > 0 AND RowNum < 21

现在的问题是，上面的语句包含11个KeywordID ，查询速度需要18秒，怎样能够优化到3秒以内？
测试发现，如果符合某一个KeywordID记录数较少的话（比如几万条），查询可以再1秒内完成
如果减少KeywordID 数量，能较少一定的时间（去掉几个KeywordID ，时间在13秒左右），但并不明显
感觉主要的耗时在INTERSECT上。

我试过对KeywordIndex 分区，每5000万一个分区，按ID左右分区依据，没有效果
上面的SQL语句中，已经是按照KeywordID记录数从少到多拼接的KeywordID = 1933（346613条记录）， KeywordID = 24（10080873条记录）

执行计划如下：
SQL Server 分析和编译时间:
CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。

SQL Server 执行时间:
CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。
SQL Server 分析和编译时间:
CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。

(20 行受影响)
表 'Worktable'。扫描计数 0，逻辑读取 0 次，物理读取 0 次，预读 0 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。
表 'KeywordIndex'。扫描计数 11，逻辑读取 121615 次，物理读取 0 次，预读 0 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。
表 'Original'。扫描计数 1，逻辑读取 350977 次，物理读取 0 次，预读 0 次，lob 逻辑读取 0 次，lob 物理读取 0 次，lob 预读 0 次。

(31 行受影响)

(1 行受影响)

SQL Server 执行时间:
CPU 时间 = 15366 毫秒，占用时间 = 15479 毫秒。

SQL Server 执行时间:
CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。
SQL Server 分析和编译时间:
CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。

希望各位高手帮忙指点一下，方向不限，优化SQL，更改表结构、索引，更改实现方式，换数据库都可以，非常感谢

解决方案

这种问题很难回答，需要根据具体情况，慢慢调测

解决方案二：

没有这样的数据，没有经验，你可以把数据传给我分析一下吗,让我来试试。
我的邮箱14707253

解决方案三：

看你的sql，感觉OriginalID 跟 KeywordID 应该是多对多的。
那么你可以先查出KeywordID in（11个数）的数据集，然后对OriginalID 进行group by 求和，having count(1) = 11的数据，就是你要的数据了。
最后在用你的外层语句把这个子集包起来。

只是提供个想法，换个思路。

时间： 2025-01-27 07:06:34

大数据-X亿级数据检索速度优化难题，高手进的相关文章

大数据仍未攻克的五大世界性难题

文章讲的是大数据仍未攻克的五大世界性难题,尽管计算性能.存储容量以及分析技术一直在不断进步,某些现实挑战对于大数据而言仍然过于庞大以至于无法应对.在今天的文章中,我们将探讨五个此类难题--看看如何才能将其解决. 如果大数据能够在传统领域之外进一步解决世界性难题,结果会怎么样?到目前为止,IBM.谷歌以及惠普等巨头级企业已经开始对这类高难度挑战发起冲击,其中包括分析繁忙的高速公路上到底会有多少车辆通过某条桥梁,或者计算会有多少用户查看网络浏览器中的一条小广告.谷歌公司甚至公布了一项雄心勃勃的计划,

大数据产业“跑”出“长春速度”

15日,长春市政府与浪潮集团就推动云计算和大数据产业发展签署战略合作协议,确定在长春经开区投资建设大数据产业基地. 这是继上月底华为云计算中心项目后,确定落位长春的第二个大数据产业项目.省委常委.市委书记王君正,市长姜治莹出席签约仪式. 项目将分两期建设浪潮集团是我国云计算的龙头企业,云计算综合实力和竞争力位居国内厂商首位,也是我国最大的以服务器.软件为核心产品的云计算核心装备制造商和解决方案提供商.目前,浪潮集团已经建成了济南.重庆.云南3个云计算中心,长春是第4个. 据介绍,该项目将分两期

大数据量高并发的数据库优化详解_MsSql

如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 一.数据库结构的设计在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程. 所以在考虑整个系统的流程的时候,我们必须

大数据量高并发的数据库优化详解

大数据玩家亿赞普进军海淘

摘要: 5月15日消息,经过从去年到今年的密集筹备,大数据平台公司亿赞普(IZP)正式涉足海淘市场,推出跨境电商进口平台海选网.据悉,海选网Beta版将于5月18日上线. 海选网市场总监孙 5月15日消息,经过从去年到今年的密集筹备,大数据平台公司亿赞普(IZP)正式涉足海淘市场,推出跨境电商进口平台--海选网.据悉,海选网Beta版将于5月18日上线. 海选网市场总监孙波向亿邦动力网表示,海选网采用"F2C"商业模式,整个购物流程可实现产品从海外工厂直接到中国消费者手中.平台主要由国

大数据是奢侈品消费金融行业防欺诈难题待解

伴随着中国消费金融市场快速发展,欺诈问题已经逐渐显现.大数据是防治欺诈和老赖的最好手段,但在中国现阶段,大数据本身仍存在数据不全面问题,且大数据非常烧钱,目前还只是行业内巨头才能玩得起的奢侈品.应对欺诈和老赖的手段强弱,直接决定了消费金融企业的坏账率的高地.但就目前来看,这一问题仍有待解决. 34至43岁的老赖最多老赖究竟长什么样? 同盾科技近日发布了<老赖画像>,对老赖人群的特征和行为做了描述:男性居多,平均年龄39岁,34-43岁的老赖人数最多,44-53岁的借贷风险最高. 第一,从性别

大数据拦路智能联网设备面临四大难题

1月13日消息,据国外媒体报道,上周拉斯维加斯举行的CES大展的主题便是物联网以及组成物联网的各种智能设备.每个参展商都能拿出某种号称最智能的新鲜玩意.但是这些智能设备真的智能吗?大数据和物联网一体两面.物联网收集来自各种智能设备的数据,这些数据需要被进行分类.重组并产生合理的决定.然后物联网利用终端智能设备来实施这些决定.这才是真正的智能化. 目前,随着智能设备的快速增长,在缺乏应用背景以及用户群的情况下,智能联网设备面临四大数据难题,阻碍了智能化的发展.虽然智能联网设备所面临的数据问题显而意

重庆银行打造大数据金融风控平台破解小微企业融资难题

重庆市国资委今天通报:重庆银行日前联合成都数联铭品科技公司打造大数据金融风控平台,破解小微企业融资难题. 重庆银行联合成都数联铭品科技公司打造的大数据金融风控平台"Holo Cfedit"近日成功上线,凭借大数据分析与建模技术,实现对小微企业在线信用评估,打破小微企业有效信息少.银行很难对其进行信用评估这道融资瓶颈.平台推出"数e融"系列小微企业贷款产品,小微企业无需任何担保,仅通过信用评分即可获得信用贷款.平台将贷款申请.审核.放款等流程搬到线上,实现了针对小

大数据时代用技术力量缓解春运难题

3月14日,交通部向携程网致谢,感谢携程网全力支持春运工作,创新探索联程运输,用技术力量缓解了春运难题.据悉,这是多年来交通部与企业合作经历中罕有的一次正式致谢. 助力联程运输试点春运期间,携程公司按照交通部有关春运工作的安排部署,强化工作协同,调配技术力量,充分利用互联网平台优势,深入挖掘大数据资源.积极推出运输服务新产品,为今年春运第三方在线调查.春运大数据分析.春运旅客联程出行等工作做出了积极贡献,为政府部门适时研判春运形势特点.客观分析春运旅客出行规律.系统掌握社会公众需求.探索旅客联

猜你喜欢

Photoshop制作“宇宙天空”效果

本例是利用Photoshop 6.0来徒手制作一幅逼真的星空效果图,通过此例的实践操作,你会体会到Photoshop 6.0的强大功能.创作步骤如下: 1.新建文件:RGB Color模式,背景Whi ...

如何解决Entity Framework查询匿名对象后的跨域访问

在Entity Framework中,可以使用lambda表达式进行对数据的查询,而且可以将查询结果直接映射为对象或者对象列表,这极大的提高的开发速度,并且使数据层的数据更加方便处理和传递.但是很多时 ...

MySQL查询优化讲座之管理员的优化措施

前面的部分中讲解的优化措施都是没有特权的MySQL用户能够执行的.可以控制MySQL服务器或计算机的系统管理员能够执行额外的优化措施.例如,有些服务器参数附属于查询处理过程,并且是可以调整的, ...

Fireworks制作青花陶瓷按钮

自从韩国风格的网页出现以来,就被中国的业界用到烂了. 自从苹果水晶风格的按钮出来,也被中国的业界用到烂了. 有时候取其精华是可以的,不过如果只是生搬硬套,不糅合自己的创意进去,就只是永远在步人家的后尘 ...

Win8.1系统应用商店搜索不到应用软件怎么办？

Win8.1系统应用商店搜索不到应用软件怎么办? 方法1: 在商店应用的首选项中关闭"更容易找到与我的首选语言一致的应用"选项. 方法2: 在控制面板中更改系统区域为美国,然后试试 ...

网易网盘助手使用教程

网易网盘助手是一款不错的同步软件,可以用网盘助手使一个本地电脑的文件夹和网易邮箱网盘中的文件夹进行绑定,成为同步文件夹.绑定成功后,无论是添加文件.修改文件内容,两个同步文件夹之间均可进行同步. 下面 ...

30个温润平和的蓝色系网站设计

蓝色向来是最受欢迎的颜色之一,它能传递强大的亲和力与信任感,但想用得好,用得巧还是很考验功力的,向优秀案例学习是捷径之一,今天我们收集了一组配色很舒服的蓝色系网站,想成为配色达人?模仿就是第一个老师呦 ...

阿里云地图页面及功能介绍

输入网站:http://ditu.aliyun.com/,阿里云地图.页面左侧有公交和驾车的选择栏,地区和分类搜索,在右上角是地图工具栏. 测距:想知道距离有多远,选择工具栏中的测距,在地图上单击 ...

Win8如何更改桌面主题

Win8更改桌面主题的方法如下: 1.桌面点击右键选择"个性化". 2.点击自己喜欢的主题自动生效,点击"练级获取更多主题"可以到微软网站下载更多主题.

怎么把QQ旋风设置为默认下载工具

首先打开QQ旋风软件选择右上角的方块标志进入设置选项常规里打勾设置默认下载工具,并且设置所有的浏览器,注意浏览器需要重启也可以把BT的下载工具设置成默认QQ旋风

台式机pc键盘接口怎么在笔记本上使用？

台式机换笔记本了,又不想换掉键盘,可以用pc转usb接口线,继续在笔记本上使用自己的键盘. 1.首先要买一个pc转usb的转换线,一般在5元左右. 2.接下来是台式pc键盘 3.最后就是将两者接到 ...

开机提示输入用户名怎么办

问题:不知道为什么,我的Windows XP开机后登录画面上的用户名框变成了空白,害得我每次登录系统都要现输入用户名,请问该如何解决? xp系统下载:单击"开始→运行",3366小 ...

爱思助手打不开、已停止工作的解决方法

爱思助手打不开.已停止工作的解决方法爱思助手已停止工作爱思助手打不开.已停止工作的原因: 爱思助手与itunes之间产生了软件冲突,急于解决这类问题的话,小编有个好方法教给你. 爱思助手打不开 ...

怎样使用滑屏方式关闭win8系统

Win8.1系统滑动屏幕完成关机的操作技巧 Win8.1系统的开机速度还是受到不少用户的热捧,不过Win8.1系统关机操作并没有达到完美的效果,繁琐的关机操作让用户烦躁不已.因为Win8.1系统可以直 ...

ntpdate watchdog-应用程序调用系统命令ntpdate，导致看门狗重启

问题描述应用程序调用系统命令ntpdate,导致看门狗重启命令如下: ntpdate -p 1 ntp.sjtu.edu.cn 看门狗超时时间是1.5s,每次调用NTP同步,就会触发看门狗重启.求 ...

python提取内容关键词的方法_python

本文实例讲述了python提取内容关键词的方法.分享给大家供大家参考.具体分析如下: 一个非常高效的提取内容关键词的python代码,这段代码只能用于英文文章内容,中文因为要分词,这段代码就无能为力了 ...

颠覆你的认知，带你领略史上最为齐全的微软黑科技之旅

自从微软这次的发布会后,网上着实遍布不少对微软黑科技的描述,从这次大家熟知集显独显分离的Surface Book,到已经耳熟能详的Hololense和Kinect,微软与其背后的研究院似乎一直在默默的 ...

计算机视觉 opencv-opencv 问题，求大神解决

问题描述 opencv 问题,求大神解决 opencv问题,百度后还是没解决,求大神解答啊计算机视觉 opencv-opencv 问题,求大神解决-opencv 3计算机视觉">,跪求 ...

c#-C#如何实现不同对实例回调

问题描述 C#如何实现不同对实例回调例如:假如一个农场有管理员 .(鸭子鸡鹅 --实现了吃喝睡功能)和用户.当发生"询问"事件时. 管理员询问用户,用户决定采用具 ...

[WCF安全系列]通过绑定元素看各种绑定对消息保护的实现

目录一.BasicHttpBinding 二.WSHttpBinding.WS2007HttpBinding和WSDualHttpBinding 三.NetTcpBinding和NetNamedPi ...

浅谈TCP优化

原文地址:http://kb.cnblogs.com/page/197406/ 很多人常常对TCP优化有一种雾里看花的感觉,实际上只要理解了TCP的运行方式就能掀开它的神秘面纱.Ilya Grigor ...

各位大侠，有没有做过和康明斯发动机的PPIF的系统的接口

问题描述各位大侠,有没有做过和康明斯发动机的PPIF的系统的接口各位大侠,有没有做过和康明斯发动机的PPIF的系统的接口? PPIF:Plant product information file. ...

新型激光模拟实验或可模拟行星内核高压环境

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; [ 科技讯]7月21日消息,据媒体报道,目前人们 ...

我们需要什么样的智能助理？

需要什么样的智能助理,是<棋魂>中的佐为还是蜡笔小新? 对于闲聊机器人来说,如果告诉你失恋了,能回个"蓝瘦,香菇".那这聊天机器人挺牛.一定是经常更新训练数据,与时俱进 ...

C#：如何使用js文件中变量

问题描述大家好,向你们问一个问题:在js文件test.js中有一些变量:v=0;versionInfo[v]=newArray(2);versionInfo[v][0]="V0.01&qu ...

请问C#中从1000多万个文本文件中查询一个数据，用什么算法会比较高效？用数据库么

问题描述请问C#中从1000多万个文本文件中查询一个数据,用什么算法会比较高效?用数据库么请问C#中从1000多万个文本文件中查询一个数据,用什么算法会比较高效?用数据库么解决方案肯定是要先做 ...

Android应用中使用ViewPager和ViewPager指示器来制作Tab标签_Android

一.ViewPageIndicator开源框架的基本用法我们先得去Github上面下载这个库,下载地址:https://github.com/JakeWharton/Android-ViewPage ...

angular+summernote+七牛实现编辑器上传图片到七牛例子

Summernote 是一个简单,灵活,所见即所得(WYSIWYG)的编辑器,但是编辑器中上传图片是base64的,base64是以文本的形式保存在数据库的,这要每次调用会对服务器造成一定的压力.而且 ...

在Windows 9系统上,微软面临的四个艰巨挑战是什么呢

下一代操作系统最终命名很有可能为Windows 9?是真的么?微软对外披露代号为"Threshold"的下一代Windows信息,其预览版也将会在公开后不久提供给公众试用. 根据消 ...

Javascript刷新页面方法总结

Javascript刷新页面方法总结 1 history.go(0) 2 location.reload() 3 location=location 4 location.as ...

热搜