大数据-X亿级数据检索速度优化难题,高手进

问题描述

X亿级数据检索速度优化难题,高手进

各位高手,目前碰到一个X亿级数据检索速度优化的难题,大家帮看看怎么解决。

涉及到的表有:
KeywordIndex:2.7亿条记录
Original:1014万条记录

KeywordIndex表包括四个字段,ID(PK,int)、KeywordID(int)、OriginalID(int)、ColumnID(int)
建立的索引:
PK_KeywordIndex([ID] ASC)
IX_KeywordIndex_KeywordID([KeywordID] ASC,包含[OriginalID]列)

业务需求是从KeywordIndex表中查找到同时符合多个KeywordID的记录(交集),然后根据这个交集从Original表中取出相应记录、排序后取出前X条

基本的语句如下SELECT * FROM ( SELECT OuterID AS ResultID, ROW_NUMBER() OVER(Order by Weights Desc, ProAddtime Desc) AS RowNum FROM Original Where
ID IN (
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1933
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1932
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1934
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1935
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 1931
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 14
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 21
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 20
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 23
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 22
INTERSECT
SELECT OriginalID FROM KeywordIndex WHERE KeywordID = 24
) ) AS T WHERE RowNum > 0 AND RowNum < 21

现在的问题是,上面的语句包含11个KeywordID ,查询速度需要18秒,怎样能够优化到3秒以内?
测试发现,如果符合某一个KeywordID记录数较少的话(比如几万条),查询可以再1秒内完成
如果减少KeywordID 数量,能较少一定的时间(去掉几个KeywordID ,时间在13秒左右),但并不明显
感觉主要的耗时在INTERSECT上。

我试过对KeywordIndex 分区,每5000万一个分区,按ID左右分区依据,没有效果
上面的SQL语句中,已经是按照KeywordID记录数从少到多拼接的KeywordID = 1933(346613条记录) , KeywordID = 24(10080873条记录)

执行计划如下:
SQL Server 分析和编译时间:
CPU 时间 = 0 毫秒,占用时间 = 0 毫秒。

SQL Server 执行时间:
CPU 时间 = 0 毫秒,占用时间 = 0 毫秒。
SQL Server 分析和编译时间:
CPU 时间 = 0 毫秒,占用时间 = 0 毫秒。

(20 行受影响)
表 'Worktable'。扫描计数 0,逻辑读取 0 次,物理读取 0 次,预读 0 次,lob 逻辑读取 0 次,lob 物理读取 0 次,lob 预读 0 次。
表 'KeywordIndex'。扫描计数 11,逻辑读取 121615 次,物理读取 0 次,预读 0 次,lob 逻辑读取 0 次,lob 物理读取 0 次,lob 预读 0 次。
表 'Original'。扫描计数 1,逻辑读取 350977 次,物理读取 0 次,预读 0 次,lob 逻辑读取 0 次,lob 物理读取 0 次,lob 预读 0 次。

(31 行受影响)

(1 行受影响)

SQL Server 执行时间:
CPU 时间 = 15366 毫秒,占用时间 = 15479 毫秒。

SQL Server 执行时间:
CPU 时间 = 0 毫秒,占用时间 = 0 毫秒。
SQL Server 分析和编译时间:
CPU 时间 = 0 毫秒,占用时间 = 0 毫秒。

希望各位高手帮忙指点一下,方向不限,优化SQL,更改表结构、索引,更改实现方式,换数据库都可以,非常感谢

解决方案

这种问题很难回答,需要根据具体情况,慢慢调测

解决方案二:

没有这样的数据,没有经验,你可以把数据传给我分析一下吗,让我来试试。
我的邮箱14707253

解决方案三:

看你的sql,感觉OriginalID 跟 KeywordID 应该是多对多的。
那么你可以先查出KeywordID in(11个数) 的数据集,然后对OriginalID 进行group by 求和,having count(1) = 11的数据,就是你要的数据了。
最后在用你的外层语句把这个子集包起来。

只是提供个想法,换个思路。

时间: 2024-08-29 06:19:22

大数据-X亿级数据检索速度优化难题,高手进的相关文章

大数据仍未攻克的五大世界性难题

文章讲的是大数据仍未攻克的五大世界性难题,尽管计算性能.存储容量以及分析技术一直在不断进步,某些现实挑战对于大数据而言仍然过于庞大以至于无法应对.在今天的文章中,我们将探讨五个此类难题--看看如何才能将其解决. 如果大数据能够在传统领域之外进一步解决世界性难题,结果会怎么样?到目前为止,IBM.谷歌以及惠普等巨头级企业已经开始对这类高难度挑战发起冲击,其中包括分析繁忙的高速公路上到底会有多少车辆通过某条桥梁,或者计算会有多少用户查看网络浏览器中的一条小广告.谷歌公司甚至公布了一项雄心勃勃的计划,

大数据产业“跑”出“长春速度”

15日,长春市政府与浪潮集团就推动云计算和大数据产业发展签署战略合作协议,确定在长春经开区投资建设大数据产业基地. 这是继上月底华为云计算中心项目后,确定落位长春的第二个大数据产业项目.省委常委.市委书记王君正,市长姜治莹出席签约仪式. 项目将分两期建设 浪潮集团是我国云计算的龙头企业,云计算综合实力和竞争力位居国内厂商首位,也是我国最大的以服务器.软件为核心产品的云计算核心装备制造商和解决方案提供商.目前,浪潮集团已经建成了济南.重庆.云南3个云计算中心,长春是第4个. 据介绍,该项目将分两期

大数据量高并发的数据库优化详解_MsSql

如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 一.数据库结构的设计 在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程. 所以在考虑整个系统的流程的时候,我们必须

大数据量高并发的数据库优化详解

如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 一.数据库结构的设计 在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程. 所以在考虑整个系统的流程的时候,我们必须

大数据玩家亿赞普进军海淘

摘要: 5月15日消息,经过从去年到今年的密集筹备,大数据平台公司亿赞普(IZP)正式涉足海淘市场,推出跨境电商进口平台海选网.据悉,海选网Beta版将于5月18日上线. 海选网市场总监孙 5月15日消息,经过从去年到今年的密集筹备,大数据平台公司亿赞普(IZP)正式涉足海淘市场,推出跨境电商进口平台--海选网.据悉,海选网Beta版将于5月18日上线. 海选网市场总监孙波向亿邦动力网表示,海选网采用"F2C"商业模式,整个购物流程可实现产品从海外工厂直接到中国消费者手中.平台主要由国

大数据是奢侈品 消费金融行业防欺诈难题待解

伴随着中国消费金融市场快速发展,欺诈问题已经逐渐显现.大数据是防治欺诈和老赖的最好手段,但在中国现阶段,大数据本身仍存在数据不全面问题,且大数据非常烧钱,目前还只是行业内巨头才能玩得起的奢侈品.应对欺诈和老赖的手段强弱,直接决定了消费金融企业的坏账率的高地.但就目前来看,这一问题仍有待解决. 34至43岁的老赖最多 老赖究竟长什么样? 同盾科技近日发布了<老赖画像>,对老赖人群的特征和行为做了描述:男性居多,平均年龄39岁,34-43岁的老赖人数最多,44-53岁的借贷风险最高. 第一,从性别

大数据拦路 智能联网设备面临四大难题

1月13日消息,据国外媒体报道,上周拉斯维加斯举行的CES大展的主题便是物联网以及组成物联网的各种智能设备.每个参展商都能拿出某种号称最智能的新鲜玩意.但是这些智能设备真的智能吗?大数据和物联网一体两面.物联网收集来自各种智能设备的数据,这些数据需要被进行分类.重组并产生合理的决定.然后物联网利用终端智能设备来实施这些决定.这才是真正的智能化. 目前,随着智能设备的快速增长,在缺乏应用背景以及用户群的情况下,智能联网设备面临四大数据难题,阻碍了智能化的发展.虽然智能联网设备所面临的数据问题显而意

重庆银行打造大数据金融风控平台破解小微企业融资难题

重庆市国资委今天通报:重庆银行日前联合成都数联铭品科技公司打造大数据金融风控平台,破解小微企业融资难题. 重庆银行联合成都数联铭品科技公司打造的大数据金融风控平台"Holo Cfedit"近日成功上线,凭借大数据分析与建模技术,实现对小微企业在线信用 评估,打破小微企业有效信息少.银行很难对其进行信用评估这道融资瓶颈.平台推出"数e融"系列小微企业贷款产品,小微企业无需任何担保,仅通过信用评分 即可获得信用贷款.平台将贷款申请.审核.放款等流程搬到线上,实现了针对小

大数据时代用技术力量缓解春运难题

3月14日,交通部向携程网致谢,感谢携程网全力支持春运工作,创新探索联程运输,用技术力量缓解了春运难题.据悉,这是多年来交通部与企业合作经历中罕有的一次正式致谢. 助力联程运输试点 春运期间,携程公司按照交通部有关春运工作的安排部署,强化工作协同,调配技术力量,充分利用互联网平台优势,深入挖掘大数据资源.积极推出运输服务新产品,为今年春运第三方在线调查.春运大数据分析.春运旅客联程出行等工作做出了积极贡献,为政府部门适时研判春运形势特点.客观分析春运旅客出行规律.系统掌握社会公众需求.探索旅客联