数据-hbase RowFilter 性能问题

问题描述

hbase RowFilter 性能问题

hbase表中有一千万数据,id字段建有二级索引,分别用RowFilter和SingleColumnValueFilter去查询单条记录,如:

 Filter filter1 = new RowFilter(CompareFilter.CompareOp.EQUAL, new BinaryComparator(Bytes.toBytes("name_id"))); //name_id是一个rowkey的值
Filter filter2 = new SingleColumnValueFilter(Bytes.toBytes("col"), Bytes.toBytes("id"), CompareFilter.CompareOp.EQUAL, Bytes.toBytes(id));

使用filter1作为过滤条件,查询很慢,使用filter2作为过滤条件,查询就很快。
我的问题是:通过rowFilter指定了rowkey查询,为什么还是这么慢?

解决方案

既然有具体Rowkey,可以直接使用Get(rowkey)方法,1000万条数据应该是在毫秒级别。

解决方案二:

怎么就没人回答呢,只能自己顶一下。。。

时间: 2024-07-29 13:30:02

数据-hbase RowFilter 性能问题的相关文章

Hadoop参考设计的实现及性能:HBase应用性能测试方法

测试工具 YCSB 的安装 YCSB介绍:YCSB(Yahoo! Cloud Serving Benchmark)是Yahoo开源的一款通用的性能测试工具.可以用于测试多种 NoSQL 产品进行测试.相关说明可以参考 https://github.com/brianfrankcooper/YCSB/wiki. YCSB的工作原理如上图所示,主要的模块包括workload和DB Interface: Workload:通过配置文件,定义读写比例,数据的大小等DB Interface:通过接口连接并

flume到hdfs写入问题-flume采集数据到hdfs性能问题

问题描述 flume采集数据到hdfs性能问题 本人目前遇到flume采集写入hdfs性能等各种问题,大致如下.在10上的xx/xx目录下的数据进行读取 sink到08上的flume 由08上的flume写到07的hdfs上 30多m的文件写了好久.有时候会内存溢出等问题 Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 Describe/configure the source a1

oracle 10g数据泵和导入导出性能对比(五)影响数据泵导入性能的最大因素

前一段时间在一次迁移中同时用到了数据泵和EXP,发现二者效率的差别还是相当大的.这里通过一个例子简单比较一下. 这篇文章讨论影响数据泵导入性能的最大因素. 前面写了几篇文章,分别介绍EXP/IMP与EXPDP/IMPDP的性能对比,根据前面几篇文章的描述,如果不使用并行,似乎IMPDP的效率要比IMP没有一个数量级的提示.对于当前的环境而言,事实确实如此.不过前面一直没有描述一个重要的因素,当然的数据库环境由于配置了STANDBY数据库,因此不但处于归档模式,还设置了FORCE LOGGING:

关注数据中心NFV性能

网络功能虚拟化(NFV)显然在逐渐兴起,全球运营商的生产部署量日益增加.运营商正在寻求创建灵活的,以软件为导向的拓扑,可以按需提供服务并降低运营成本.从数据中心的性能角度来看,存在一个问题:在云端和企业数据中心工作的传统IT虚拟化方法无法实现经济高效的支持运营商所需的以I/O为中心和时间敏感型的工作负载. NFV,顾名思义,涉及将网络功能从网络设备中抽离,并以软件来实现.工作负载和网络资源可按需调整,这种即时供应服务方式在运营商中有着显著地上升空间,消除了网络功能必须存在于硬件设备中导致的"服务

数据中心网络带宽性能测试方法介绍

数据中心的好与坏,在一定程度上取决于网络带宽的性能.网络作为数据中心的输入.输出部分,最为关键,绝不能在出入口设卡.随着数据中心业务不断增长,内部不断进行升级和扩容,出入口的带宽也要随之提升,否则就会出现拥塞.俗话说"要想富,先修路",对于数据中心来讲,建设好网络这条高速公路非常重要.不过这条高速公路不是简单地增加路面宽度,多建几条并行的道路就可以的,要考虑成本的因素,周围的设施.本来行驶的车辆就不多,还要建四五条道路,就显得非常浪费,没有必要.那么如何才能建设最适合自己的数据中心网络

php导入大量数据到mysql性能优化技巧_php技巧

本文实例讲述了php导入大量数据到mysql性能优化技巧.分享给大家供大家参考.具体分析如下: 在mysql中我们结合php把一些文件导入到mysql中,这里就来分享一下我对15000条记录进行导入时分析与优化,需要的朋友可以参考一下. 之前有几篇文章,说了最近tiandi在帮朋友做一个小项目,用于统计电话号码的,每次按需求从数据库里随机生成打包的电话号码,然后不停地让人打这些电话号码推销产品(小小鄙视一下这样的行为).但是朋友要求帮忙,咱也不能不帮啊,是吧.程序两个星期前已经做好,测试完毕交工

数据中心网络性能:新应用下的新需求

随着机器学习,大数据,云计算和NFV不断完善,数据中心网络性能也随之发展.亚马逊,谷歌,百度和腾讯等大型云服务提供商已更新提供IT服务的方式,使之功能更强大,速度更敏捷,灵活性更高.这敲响了传统运营商的警钟,AT&T技术与运营首席策略官John Donovan 表示,AT&T致力于成为"世界上最具侵略性的IT公司".OTT产品在业界的应用已变得普遍,应用和服务开发都需要创新完善. 他表示:"厂商正在逐渐成为竞争对手,过去的竞争对手变为开源开发等领域的合作伙伴.

XML数据读取方式性能比较(一)

原文:XML数据读取方式性能比较(一) 几个月来,疑被SOA,一直在和XML操作打交道,SQL差不多又忘光了.现在已经知道,至少有四种常用人XML数据操作方式(好像Java差不多),不过还没有实际比较过这些方式各有哪些特点或优劣.正好看到网上也没有这方面的实验,偶来总结一下. 测试开始先读取XML源,用一个比较大的RSS文件链接,复制到项目bin/debug目录下. Stream xmlStream =new MemoryStream(File.ReadAllBytes(path));   一.

采用经济策略提高数据中心的性能和效率

如今是IT和数据中心发展正旺的时刻,随着技术的不断发展,推动了更好的数据传输,更多的可视化和控制,并且提高了数据中心计算和基础设施的效率. 不幸的是,数据中心的预算并没有随着技术领导者引进新一代设备的速度而增加,许多企业不得不作出艰难的决定,在哪里投资来优化运营,例如更新服务器和计算设备,或更表或优化基础架构? 如果企业希望在不更换现有基础设施的情况下提高数据中心的运行性能,请考虑采用这些经济策略: 关注机架空间.检查正在占用空间和消耗电力的僵尸服务器.根据斯坦福大学的一项研究估计,北美地区的每