基于Hash算法的高维数据的最近邻检索

一.摘要

　　最紧邻检索：一种树基于树结构，一种是基于hash
　　a.随机投影算法，需要产生很多哈希表，才能提高性能。
　　b.基于学习的哈希算法在哈希编码较短时候性能不错，但是增加编码长度并不能显著提高性能。

　　随机投影：实际上就是随机的，实际上需要挖掘使用数据的内部结构，结合最大熵原理。
　　基于密度的哈希就是依据数据分布产生最合理的投影。
　　数据稀疏：稀疏编码+ 压缩感知

　　GIST1M数据集2.55G，这个是专门做最近邻检索的。

二.绪论

2.1 课题背景

　　最近邻检索的主要问题是如何建立高效索引。
　　数据集是n*d。
　　d = 1,先排序，然后二分查找，空间复杂度是o(n)，时间复杂度是o(nlgn)；各种平衡树也行。
　　d = 2时，用voronoi图（泰森多边形或者狄利克雷图），这个我刚开始看k-means得时候找到过，来自于GIS的技术。时空同上。
　　d>3时候找不到空间线性、时间对数的算法了。
　　d<20时，利用KD树（1975年提出）。

　　提出近似（最优解的宇普西龙邻域内的点都可以返回）的概念，这个理念的思想是许多情况下近似解和最优解差别不大。

　　k分类算法，近朱者赤、近墨者黑，判断一个点属于哪一类就看他周围的点多数属于哪一类。如果k太小，容易受噪声点影响，k太大，会因为很远的点包含进来而影响算法性能。
k-means算法的一个计算瓶颈是为每个数据点找最近类心。

2.2 算法基础

　　主流的哈希算法可以看做是降维，因此先介绍降维算法。
　　降维包括特征提取和特征选择。特征提取是选择某几维，比如研究基因对XXX的影响，就研究某几个基因就行了，感觉有点像物理实验中的控制变量法。
　　特征提取是构造了原有的特征，比如随机投影、PCA，LDA（线性判别（discriminant）分析）。这些降维算法都可以转换为哈希算法。
　　随机投影基于Johnson-Lindenstrauss定理。

　　笔者注：Johnson–Lindenstrauss 定理是我在今晚的一个学术报告里听说的一个非常令人惊讶的定理。简单说来，它的结论是这样的：一个一百万维空间里的随便一万个点，一定可以几乎被装进一个几十维的子空间里！

　　严格说来是这样：在 M 维空间中的 N 个点，几乎总是被包含在一个 D 维子空间里的。这里的 D 按照直觉应当等于 N 的阶，可是实际上我们只需要让 D 是 log(N) 的阶就可以了。这里「几乎被包含在」的确切含义是它在这个子空间上的投影几乎是等距的（允许有一个 ε 的误差，而常数 D/log(N) 就依赖于 ε）。很显然，这件事情在高维数据降维时有极重要的意义。

　　这个定理的证明很初等。它依赖于这样的一个基本概率事实：一个随机的 M 维单位向量到一个随机的 D 维子空间上的投影的长度几乎一定约等于 D/M。这件事情本身也有点不同寻常，虽然它可以通过简单的计算来证实。这是概率论计算中常常出现的由于高维度而导致的反直觉现象的一例。

　　这让我想起另一个高维度导致的悖论，是我在学大数定律时了解到的。在 M 维单位立方体中随机取一个点，当 M 充分大时根据大数定理容易算出这个点到立方体中心的距离几乎一定等于 √(M/3)/2。于是这就说明 M 维实心单位立方体几乎就完全位于一个半径为 √(M/3)/2 的球壳上。这里没有任何捣鬼之处，事实上就是如此。

　　http://imaginary.farmostwood.net/573.html

　　PCA如果映射为一个点的话，那么丢失休息，所以，映射后的数据要方差最大，保证数据比较离散，尽可能地保留多的信息。

　　LDA是有监督的线性降维方法，和PCA不同，他要求尽可能使数据被容易区分，即同一类数据点尽可能拷进，不同类的尽可能分散。
　　还有就是保留局部投影，这就是谱方法。

三.相关工作

　　在实际应用中，我们往往不一定需要用到真实的最近邻，许多时候我们都只需要在很短的时间内得到近似的最近邻即可，这也给了研究学者一个新的研究的方向。
　　超平面分割的哈希随着编码长度的增加性能并不能显著增加。
　　迭代量化哈希能提升二值哈希的均衡性，从而提升性能。
　　谱哈希挖掘数据的内部结构。
　　球哈希能显著增加准确度。

四.密度哈希算法

　　先用k-means算法对数据分组，不过大量数据下k-means运行时间很长，所以需要让算法P次后停止迭代（P=5）。假设产生了k个组，那么就以每个组内的中心点作为投影向量。

　　www.zjucadcg.cn/dengcai/Data/DSH.html
　　www.zjucadcg.cn/dengcai/Data/NNSData.html
　　www.zjucadcg.cn/dengcai/Data/DimensionReduction.html

五.基于压缩感知的哈希算法

　　据Jonson Lindenstrauss定理为了使一个含有个点的数据点集在投影到低维空间后依然很好地保持着点对距离，我们必须构建大约O(ln n/ε^2)个随机投影向量，其中ε(Epsilon)参数是距离估计的相对误差。

　　在这一章，针对前面所提到的目前主流哈希算法所存在的问题，我们将提出一个新的哈希算法：基于压缩感知的哈希算法（这个算法结合了稀疏编码技术和压缩感知理论。这个算法的主要思想是基于压缩感知理论中的一个重要的性质受限等距性质。这个性质强调了对于任意一个稀疏的向量，随机投影保持这些高维稀疏向量之间的欧氏距离的概率都是非常大的。

　　根据J-L定理，我们可以想到的最直接的方法就是把高维数据投影到低维空间，然后用一些高效的能在低维空间快速检索最近邻的方法（如kd-tree树）来处理查询。这个方法的主要问题在于为了使得每个点的最近邻都能以很大的概率在检索的过程中被返回，需要K这么大才可以，显然这是不能令人满意的。

时间： 2024-09-20 11:46:16

基于Hash算法的高维数据的最近邻检索的相关文章

海量文档查同或聚类问题 -- Locality Sensitive Hash 算法

考虑一下这个场景 , 使用网络爬虫高速爬取大量的网页内容 , 如果想把这些网页进行实时聚类 , 并从中提取每个网页聚类的主题 . 我们应该怎么样去做对于普通或常见的聚类算法 , 比如 K-means, 或 Hierarchical 聚类 , 无法适用于这个常见 , 对于这些聚类算法无法进行 incremental 聚类 , 即在聚类开始前必须知道整个数据集 , 而这个场景中的数据集是随着爬虫不断增多的 . 而且这些聚类算法的 performance 不够高 , 比如对于 K-means 需要不

基于Hash的查找算法实现

package da; public class MyMap< K, V> { private int size;// 当前容量 private static int INIT_CAPACITY = 16;// 默认容量 private Entry< K, V>[] container;// 实际存储数据的数组对象 private static float LOAD_FACTOR = 0.75f;// 装载因子 private int max;// 能存的最大的数=capacity

wsn 数据收集-wsn中基于移动SINK的高效数据收集算法

问题描述 wsn中基于移动SINK的高效数据收集算法哪位大神可以帮帮忙CSDN移动问答其中最短路径用佛洛依德算法实现最好

基于一致性hash算法 C++语言的实现详解_C 语言

一致性hash算法实现有两个关键问题需要解决,一个是用于结点存储和查找的数据结构的选择,另一个是结点hash算法的选择. 首先来谈一下一致性hash算法中用于存储结点的数据结构.通过了解一致性hash的原理,我们知道结点可以想象为是存储在一个环形的数据结构上(如下图),结点A.B.C.D按hash值在环形分布上是有序的,也就是说结点可以按hash值存储在一个有序的队列里.如下图所示,当一个hash值为-2^20的请求点P查找路由结点时,一致性hash算法会按hash值的顺时针方向

基于一致性hash算法(consistent hashing)的使用详解_Mysql

1 基本场景比如你有 N 个 cache 服务器(后面简称 cache ),那么如何将一个对象 object 映射到 N 个 cache 上呢,你很可能会采用类似下面的通用方法计算 object 的 hash 值,然后均匀的映射到到 N 个 cache : hash(object)%N 一切都运行正常,再考虑如下的两种情况: 1 一个 cache 服务器 m down 掉了(在实际应用中必须要考虑这种情况),这样所有映射到 cache m 的对象都会失效,怎么办,需要把 cache m 从 c

Hash算法，及HashMap使用

为什么要Hash? 哈希表是基于数组实现的,哈希算法就是如何将键值(key)转换成数组小标的方法,哈希化可以提供非常高的操作(插入.删除.查询)效率,因为对有序数组的查询,即使是二分查找也只能做到O(logN),因为哈希可以直接将要查询的key转化为数组小标,所以可以达到O(1)的时间级. Hash算法:将key做hash后的值叫hashcode,hashcode的值范围可能很大,Hash算法是将一个较大范围的hashcode转换为定长的区间的数值.一个好的hash算法应该使hashcode均匀

基于hash计算的多层实验流量切分的实现

1. 背景介绍站点新功能或者是站内新策略开发完毕之后,在全流量上线之前要评估新功能或者新策略的优劣,常用的评估方法是A-B测试,做法是在全量中抽样出两份小流量,分别走新策略分支和旧策略分支,通过对比这两份流量下的各指标的差异,我们可以评估出新策略的优劣,进而决定新策略是否全流量. 上文中提到的抽样是指按照某种确定的随机化方法,对线上流量进行划分.抽样可以指这种划分的方法,也可以指划分得到的一个流量子集.抽样是一种特殊的小流量,要求对流量的划分必须保证均匀性和随机性,并且可以根据需求过滤掉不符合

基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案郑昀基于杨海波的设计文档（转）

郑昀基于杨海波的设计文档创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档适用人员:技术人员提纲: 所谓异常流量如何识别异常流量 Apriori如何工作如何让 Nginx 拦截可疑 IP 0x00,所谓异常流量有害的异常流量大概分为以下几种: 僵尸网络中的节点对主站发起无目的的密集访问: 黑客.白帽子或某些安全公司为了做漏洞扫描,对主站各个 Web 工程发起字典式

科大讯飞刘庆峰：AI要改变世界，算法、大数据、行业专家缺一不可

10月24日,科大讯飞在其大本营安徽合肥举办了首届全球1024开发者节.会上,科大讯飞董事长刘庆峰发表了<1024 AI因你而来>的主题演讲. 刘庆峰指出,人工智能是这个时代最伟大的技术,其对当前社会的改变,将会超出我们常人的想象.目前来说,人工智能现在有两个主要方向:一个是基于数学统计.建模的人工智能发展模式,以深度学习为代表:一个是对人类大脑科学的研究. 刘庆峰还表示,通过与教育.医疗等领域的机构通力合作,科大讯飞的开放平台与传统领域的应用程度正在逐步加深. "目前,讯飞开放平台

猜你喜欢

文件/目录权限设置命令chmod的详细用法

chmod是文件/目录权限设置的命令,在Linux中经常遇到,本博文以下总结chmod的详细用法. Linux/Unix的档案调用权限分为三级,即档案拥有者user.群组group.其他other. ...

蚂蚁金服&阿里云在线金融技术峰会全套资料（视频+PDF）公开！

8月30-31日我们成功举办了"蚂蚁金服&阿里云在线金融技术峰会".本次峰会聚焦数据库.应用架构.移动开发.机器学习等热门领域,帮助金融业技术开发者深入解析互联网应用的前沿 ...

js 提交表单: 代码记事本－－－－Js 提交表单和超链

ASP.NET AJAX入门系列（9）：在母版页中使用UpdatePanel

本文简单介绍一下在母版页中使用UpdatePanel控件,翻译自官方文档. 一．添加UpdatePanel控件到Content-Page 1．添加一个新的Master Page,并切换到设计视图. 2 ...

用ASP.Net MVC快速创建一个电影数据库应用程

Stephen Walther 从头开始到结束建立了整个数据驱动ASP.NET MVC应用程序.这个教程对于那些刚刚接触ASP.NET MVC框架以及想要获得一种建立ASP.NET MVC应用程序的 ...

用图片代替提交和重置按钮

为了整个界面美观,我们需要对提交和重置按钮美化一番,可是无论用什么CSS样式定义按钮,都很难达到满意的效果,只得用JS+图片的方式进行处理,下边我是总结出的三种方法: 1.用图片代替提交和重置按钮,给 ...

SharePoint 2010 Designer创建BCS时使用模拟自定义标识进行连接

在使用SharePoint Designer创建 BCS时,我们通常会使用用户标识进行数据库连接. 这种方式,大多数情况下是数据库采用了windows认证模式,这样我们使用windows用户时,就可 ...

SQL SERVER2000 的一些技巧

1.SQL Server 2000中查询表名经常碰到一些忘记表名称的情况,此时只记得个大概,此时可通过查询系统表Sysobjects找到所要的表名,如要查找包含用户的表名,可通过以下SQL语句实 ...

WPS表格教程：巧用IF函数嵌套，将学生成绩换成等级

在刚刚被淘汰的高中会考和现在实行的高中新课程学业水平考试中,对学生的评价都是采用等级评判法(一般四个等级A,B,C,D),也就是把学生考的成绩转换成等级.下面举例说明运用WPS表格中的IF函数嵌套,实 ...

网络安全评估之边界测试

对于任何注意网络安全评估的公司而言,定期执行边界漏洞测试是至关重要的.有一些攻击由内部发起,而有许多攻击是来自于公司外部.这意味着,公司必须能够验证边界设备,保证系统及时安装补丁,并且保持更新.边 ...

简单解决Ubuntu修改locale的问题

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://dgd2010.blog.51cto.com/1539422/1684813 本文 ...

说说地方门户网站要如何适应市场环境

地方门户网作为一种互联网表现形式,比较强势地走入了人们的生活. 不同于各大门户网的是,地方门户网的发展环境却不能令每位门户网站长满意,究其原因不外乎是三缺:缺技术.缺资金.缺团队.说实在的,本作者以为 ...

mvc iis-asp.net mvc 5 部署到windows server 2012服务器的iis8上报错，求解

问题描述 asp.net mvc 5 部署到windows server 2012服务器的iis8上报错,求解 "/"应用程序中的服务器错误. 目录不存在. 参数名: direct ...

初学者 VC CLR界面怎么实现缩放功能？

问题描述初学者 VC CLR界面怎么实现缩放功能? 书上说用ScaleTransform函数我想按button1画线 button2放大但是 button2无反应 #pragma endreg ...

怎么用fuzzy hash加密一个文本

问题描述怎么用fuzzy hash加密一个文本求代码程序利用fuzzy hash 加密文本谢啦~! 找不到fuzzy hash 函数的头文件里面的函数也不知道如何调用? 解决方案 <% ...

java web tomcat-如何手动部署javaweb应用到tomcat，都试过了还是不行。

问题描述如何手动部署javaweb应用到tomcat,都试过了还是不行. 楼主是小白,外包公司做的我们要本地测试,发过来的不是war文件,大神帮我弄好悬赏50rmb,说话算数.很急,已经折腾好几天了 ...

mysql-为什么数据库要插入数据后再建B-Tree等结构的索引，而不是边插边建？

问题描述为什么数据库要插入数据后再建B-Tree等结构的索引,而不是边插边建? 直接插入到B-Tree里不行吗还有个问题,本来是直接插入到什么数据结构里的? 解决方案 voltDB好像就是往BTr ...

HQL: The Hibernate Query Language

Chapter 14. HQL: The Hibernate Query Language 14.1. Case Sensitivity 14.2. The from clause 14.3. Ass ...

物联网渐行渐近你准备好了吗？

你知道吗?甚至在"万维网"(World Wide Web)出现之前,"物联网"(Internet of Things)就已经出现了. 在 1991 年,剑桥大学 ...

有没有简易的聊天系统，类似官网咨询那种聊天的

问题描述解决方案官网咨询是环信移动客服,您可以先看下 http://docs.easemob.com/doku.p ... guide

我的Java开发学习之旅------&gt;Java经典排序算法之二分插入排序

一.折半插入排序(二分插入排序) 将直接插入排序中寻找A[i]的插入位置的方法改为采用折半比较,即可得到折半插入排序算法.在处理A[i]时,A[0]--A[i-1]已经按关键码值排好序.所谓折半比较, ...

jquery Layer(弹窗/tips/confirm)插件使用教程

1.首先引用: <script src="../../js/common/layer/layer.js"></script> 2.消息提示tips: lay ...

19个超实用的PHP代码片段_php实例

1) Whois query using PHP --利用PHP获取Whois请求利用这段代码,在特定的域名里可获得whois信息.把域名名称作为参数,并显示所有域名的相关信息. 复制代码代码如下 ...

利用noesis.Javascript开源组件.Net中执行javascript脚本_实用技巧

界面如下: 然后,click filter button后的UI: 看,筛选出来了,代码如下(js能调C#写的UserInfo类的各个属性) 复制代码代码如下: public class UserI ...

关于www.91dh.com.cn网站问题

问题描述我家里电脑的主页是www.91dh.com.cn可是今天却打不开了不知道怎么回事

Eclipse导出JavaDoc中文乱码问题解决

给 javadoc.exe 加上编码参数就OK. 具体的: 在Eclipse里 export 选 JavaDoc,在向导的最后一页的Extra JavaDoc Options 里填上参数即可比如项目 ...

我这个线程起的有没有问题

问题描述 //得到socket及其它信息private static SessionBean sessionBean = SessionBean.getInstance();/** * 报文处理及生成 ...

数据库中模式的意义

概念模式,也称为逻辑模式,是数据库中全体数据的逻辑特征和特征描述,是所有用户的公用数据视图.一个数据库只有一个模式,而外模式不是唯一也不可能是唯一的,模式是数据库逻辑上的视图.数据库模式以某一种数据 ...

《高性能科学与工程计算》——2.3　小方法，大改进

2.3 小方法,大改进 2.3.1 消除常用子表达式消除常用子表达式经常被认为是编译器的任务.其基本思想是,在构造复杂表达式之前,预先计算其中被多次调用的子表达式,并将结果存储在临时变量中.在循环代码 ...

java的web程序的自动升级

问题描述我的web程序已经部署在服务器上,要实现这样一个问题类似自动升级:后台程序某些类作了修改,不重新部署war包的情况下怎么升级程序?是不是要用监听?急急急! 解决方案解决方案二:估计不行把. ...

热搜