论文精选 | 性能收益相对提升了58.84%？——自适应二进制量化方法

散列法（Hashing）或哈希法是一种将字符组成的字符串转换为固定长度（一般是更短长度）的数值或索引值的方法，称为散列法，也叫哈希法。由于通过更短的哈希值比用原始值进行数据库搜索更快，这种方法一般用来在数据库中建立索引并进行搜索，同时还用在各种解密算法中。

快速近邻搜索的自适应二进制量化（Adaptive Binary Quantization for Fast Nearest Neighbor Search）

摘要：对于大数据中快速近邻搜索，哈希法已被证明是一个很有吸引力的技术。与基于哈希法的投影相比，基于原型的投影有更强的能力去生成数据（具有复杂的固有结构）的判别性二进制码。然而，我们的观察表明，它们仍然无法获得高质量的编码——通常在一个超立方体中利用完整的二进制代码。为了解决该问题，我们提出了自适应二进制量化方法——学习一个与原型相应、有着小且独特二进制代码的判别性散列函数。我们的交替优化以有效的方式自适应地发现原型集和不同尺寸的代码集，它总的鲁棒性近似与数据关系。我们的方法可以很自然地推广到长散列码乘积空间。我们相信，我们的想法对于散列研究非常有帮助。在四个大型（高达8000万）数据集上的大量的实验表明，我们的方法显着优于最好散列方法，性能收益相对提升了58.84%。

第一作者简介

Zhujin Li

北京航空航天大学软件开发环境国家重点实验室

文章总结及应用场景

受到我们观察的启发——原型为基础的散列有可能存在一个更好的编码解决方案，即只使用一小部分的二进制码，而不是完整的集合，本文提出了一种自适应二进制量化方法——在原空间中共同追求一套原型和Hamming 空间中的一个二进制代码子集。原型和代码相应关联且一起定义有着更小散列编码的散列函数。我们的方法计算速度更快，且具备在乘积空间中生成长散列码的能力，和具有判别能力的最近邻搜索。

在过去的十年中，由于散列技术成功的应用于许多领域，如大规模的视觉搜索、机器学习、推荐系统等，其在快速最近邻搜索领域已被广泛研究。

via：ECAI 2016

PS : 本文由雷锋网(公众号：雷锋网)独家编译，未经许可拒绝转载！

原论文下载

本文作者：章敏

本文转自雷锋网禁止二次转载，原文链接

时间： 2025-01-20 14:08:16

论文精选 | 性能收益相对提升了58.84%？——自适应二进制量化方法

快速近邻搜索的自适应二进制量化（Adaptive Binary Quantization for Fast Nearest Neighbor Search）

第一作者简介

文章总结及应用场景

论文精选 | 性能收益相对提升了58.84%？——自适应二进制量化方法的相关文章

可靠性、可用性和容灾设计这些活动都是围绕 “安全” 这个核心，而性能优化，提升响应性则是围绕 “效率”

IBM WebSphere Portal高级缓存内容转移数据网格中的性能收益

SOA减低成本提升效率的最有效的思想方法

从性能方面考虑PHP下载远程文件的3种方法_php实例

PRICAI 2016 论文精选 | 大规模文本分类

PRICAI 2016 论文精选 | 最大间距二叉树纠错输出码

震精 - PostgreSQL 10.0 preview 性能增强 - WARM提升一倍性能

论文精选 | 流感也能预测——升级版状态滤波算法

更快，更精确的人脸识别方法（ECAI 2016论文精选）| AI科技评论