论文精选 | 性能收益相对提升了58.84%?——自适应二进制量化方法

散列法(Hashing)或哈希法是一种将字符组成的字符串转换为固定长度(一般是更短长度)的数值或索引值的方法,称为散列法,也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快,这种方法一般用来在数据库中建立索引并进行搜索,同时还用在各种解密算法中。

快速近邻搜索的自适应二进制量化(Adaptive Binary Quantization for Fast Nearest Neighbor Search)

 

摘要:对于大数据中快速近邻搜索,哈希法已被证明是一个很有吸引力的技术。与基于哈希法的投影相比,基于原型的投影有更强的能力去生成数据(具有复杂的固有结构)的判别性二进制码。然而,我们的观察表明,它们仍然无法获得高质量的编码——通常在一个超立方体中利用完整的二进制代码。为了解决该问题,我们提出了自适应二进制量化方法——学习一个与原型相应、有着小且独特二进制代码的判别性散列函数。我们的交替优化以有效的方式自适应地发现原型集和不同尺寸的代码集,它总的鲁棒性近似与数据关系。我们的方法可以很自然地推广到长散列码乘积空间。我们相信,我们的想法对于散列研究非常有帮助。在四个大型(高达8000万)数据集上的大量的实验表明,我们的方法显着优于最好散列方法,性能收益相对提升了58.84%。

第一作者简介

Zhujin Li

北京航空航天大学软件开发环境国家重点实验室

文章总结及应用场景

受到我们观察的启发——原型为基础的散列有可能存在一个更好的编码解决方案,即只使用一小部分的二进制码,而不是完整的集合,本文提出了一种自适应二进制量化方法——在原空间中共同追求一套原型和Hamming 空间中的一个二进制代码子集。原型和代码相应关联且一起定义有着更小散列编码的散列函数。我们的方法计算速度更快,且具备在乘积空间中生成长散列码的能力,和具有判别能力的最近邻搜索。

在过去的十年中,由于散列技术成功的应用于许多领域,如大规模的视觉搜索、机器学习、推荐系统等,其在快速最近邻搜索领域已被广泛研究。

via:ECAI  2016

PS : 本文由雷锋网(公众号:雷锋网)独家编译,未经许可拒绝转载!

原论文下载

本文作者:章敏

本文转自雷锋网禁止二次转载,原文链接

时间: 2025-01-20 14:08:16

论文精选 | 性能收益相对提升了58.84%?——自适应二进制量化方法的相关文章

可靠性、可用性和容灾设计这些活动都是围绕 “安全” 这个核心,而性能优化,提升响应性则是围绕 “效率”

  「我们一直这样做开发,时间做久了,便忘了当初的本意.」 有关软件系统开发,我们谈些什么? 我们谈过程,编码规范.开发流程.同行评审.结对编程.持续集成,从瀑布到敏捷再到极限编程. 我们谈架构,企业级.J2EE.容器化.SOA(面向服务架构).Microservices(微服务化). 我们谈规模,大容量.高并发.大数据. 我们还谈可靠性.可用率.n个9.响应时间等等... 这一切的核心是什么? 先讲个电力行业的一个故事,电力的项目我没做过,对电厂的原理虽有所了解,但看见那些大规模的电站还是感觉

IBM WebSphere Portal高级缓存内容转移数据网格中的性能收益

WebSphere eXtreme Scale 和 XC10 缓存设备提供了 dynacache 实现,它将缓存的内容存储在一个弹性的数据网格中,而不使用默认的 dynacache 实现(后者将缓存的内容存储在 IBM http://www.aliyun.com/zixun/aggregation/13387.html">WebSphere Application Server 堆空间中或磁盘上).本文介绍将 WebSphere Portal 高级缓存内容转移到一个 XC10 缓存设备所托

SOA减低成本提升效率的最有效的思想方法

本文讲的是SOA减低成本提升效率的最有效的思想方法,[IT168 资讯]纠缠与SOA概念并没有意义,SOA所倡导的敏捷性.低成本不正是我们一直都在不断追求的目标吗? 当百年一遇的经济危机在全球愈演愈烈的时候,越来越多的纷争和思考已经溢出了金融市场的范围,而延伸到了IT领域.曾经在全世界得到无比追捧的面向服务架构--SOA也遇到了令人尴尬的挑战. 知名IT评论家AnneThomasManes在其博客中惊呼:SOA已死!此言一出端的是震撼天下,在中国市场中也引起无数纷争,SOA的支持者们有些不知所措

从性能方面考虑PHP下载远程文件的3种方法_php实例

今天在做导出Excel的时候,总是要测试导出的Excel文件,频繁的下载和打开,很麻烦就想着写段代码一气呵成  服务端导出Excel==>下载Excel文件到本地==>并打开的操作. 这里摘出PHP下载远端文件的方案,以备忘.其中第3种方法考虑到文件过大时的性能问题. 3种方案: -rw-rw-r-- 1 liuyuan liuyuan 470 Feb 20 18:12 test1_fopen.php -rw-rw-r-- 1 liuyuan liuyuan 541 Feb 20 18:06

PRICAI 2016 论文精选 | 大规模文本分类

文本分类是文本信息处理的基础性工作,因此受到很多关注.但文本的特征表示严重地限制了文本分类性能的提升.而随着社会网络化的发展,大规模的甚至海量的文本信息急剧增加,导致文本分类问题面临着巨大挑战.本文是PRICAI 2016大会收录的论文,介绍了一种解决该问题的快速训练方法. 标题:大规模文本分类之图表增强型快速训练 摘要: 本文提出了一种基于增强型算法的图表分类快速训练方法,通过图表输入文本,应用到情绪分析中.图表的形式非常适合表示用自然语言处理技术处理过的文本结构,比如语法分析,命名实例识别和

PRICAI 2016 论文精选 | 最大间距二叉树纠错输出码

多类别分类问题在机器学习领域吸引了很多关注,传统的解决方案倾向于将其变为多个二元问题,相应的策略包括决策树.神经网络等等.本文被PRICAI 2016大会收录,提出了一种最大间距二叉树纠错输出码,对应的编码矩阵更加稳定和易识别. 标题:最大间距二叉树纠错输出码 摘要:编码是纠错输出码(ECOCs)中最重要的一步.传统的编码策略通常与数据无关.最近,提出的一些树形编码算法率先利用交互信息预估类间可分性,将二叉树自上而下分层分区,以获得一个编码矩阵.但这些标准通常是由一个非参数方法计算得到,一般来说

震精 - PostgreSQL 10.0 preview 性能增强 - WARM提升一倍性能

标签 PostgreSQL , 10.0 , WARM , 写放大 , 索引写放大 背景 目前,PostgreSQL的MVCC是多版本来实现的,当更新数据时,产生新的版本.(社区正在着手增加基于回滚段的存储引擎) 由于索引存储的是KEY+CTID(行号),当tuple的新版本与旧版本不在同一个数据块(BLOCK)的时候,索引也要随之变化,当新版本在同一个块里面时,则发生HOT UPDATE,索引的值不需要更新,但是因为产生了一条新的记录,所以也需要插入一条索引item,垃圾回收时,将其回收,因此

论文精选 | 流感也能预测——升级版状态滤波算法

SIR模型是传染病模型中最经典的模型,最基本的模型,为传染病动力学的研究做出了奠基性的贡献.其中S表示易感者,I表示感染者,R表示移出者. 预测SIR流行病的升级版状态滤波算法(An Improved State Filter Algorithm for SIR Epidemic Forecasting)   摘要:在流行病建模中,状态滤波在提高传统传染病模型的性能方面是一种很好的工具.我们引入了一种新的状态过滤算法,以进一步提高基于易感者-感染者-移出者SIR)模型最好方法的性能.该算法融合了

更快,更精确的人脸识别方法(ECAI 2016论文精选)| AI科技评论

ECAI 2016是欧洲展示AI科学成果的最佳场所,大会为研究人员提供了很好的机会,去介绍和听取当代最优秀的人工智能研究成果. 人脸识别的随机典型相关判别分析(Randomized Canonical Correlation Discriminant Analysis for Face Recognition)   摘要:典型相关分析(CCA)作为多元统计分析中的一大重要技术,已广泛应用于脸部识别.但是现存基于CCA的脸部识别方法需要相同脸部脸样本的两种表达,而且在处理大样本时,通常会受到较高的