空间数据库中基于MapReduce的kNN算法研究

空间数据库中基于MapReduce的kNN算法研究

大连海事大学  刘彪

本文首次尝试设计了一种云环境下的倒排网格索引和在该索引基础上进行的基于MapReduce的空间kNN查询。本文所做的主要工作如下:(1)针对二维空间中的数据点,本文设计了一种分布式的倒排网格索引方法,该索引方法完全符合空间数据索引的标准一动态性和简单性。由于倒排网格索引具有松耦合和无共享的特殊结构,所以该索引比较适合基于MapReduce的大规模空问数据的并行查询。(2)本文提出了一种基于MapReduce的空间倒排网格索引的建立方法和在该索引基础上的并行kNN查询算法MRCircleTrip。另外,本文还给出了算法在收敛性上的数学证明,以证明算法循环停止条件的准确性。(3)为了验证本文所设计的索引结构的可扩展性和kNN查询算法的性能,本文在建立倒排网格索引和kNN空间查询方面做了大量的实验。

关键词:空间索引 kNN查询 网格索引 MapReduce

[下载地址]:http://bbs.chinacloud.cn/showtopic-14074.aspx

时间: 2024-08-04 12:10:40

空间数据库中基于MapReduce的kNN算法研究的相关文章

基于MapReduce的序列规则在推荐系统中的研究

基于MapReduce的序列规则在推荐系统中的研究 元二菊  郭进伟  皮建 目前常用的个性化推荐系统模型通常是基于协同过滤或者是基于内容的,也有部分基于关联规则的.这些算法没有考虑事务间的顺序,然而在很多应用中这样的顺序很重要.文章提出了一种简易的基于序列模式的推荐模型,并且考虑到大规模数据的处理,结合了 MapReduce 编程模型.这种简易的推荐模型可以用来辅助通常的个性化推荐系统. 基于MapReduce的序列规则在推荐系统中的研究

基于MapReduce模型的排序算法优化研究

基于MapReduce模型的排序算法优化研究 金菁 MapReduce已经发展成为大数据领域标准的并行计算模型.理想情况下,一个MapReduce系统应该使参与计算的所有节点高度负载均衡,并且最小化空间使用率.CPU和I/O的使用时长以及网络传输开销.传统的算法往往只针对上述指标中的一种进行优化.在保持算法良好并行性基础上,对多个指标同时进行优化,提出了MapReduce优化算法的设计规范.针对数据处理领域最重要的排序算法进行理论分析,给出了多指标约束下的最后算法,并证明了该优化算法满足MapR

基于Hadoop MapReduce的分布式数据流聚类算法研究

基于Hadoop MapReduce的分布式数据流聚类算法研究 蔡斌雷 任家东 朱世伟 郭芹 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点.文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点.算法基于网格密度

基于MapReduce编程模型的TFIDF算法研究

基于MapReduce编程模型的TFIDF算法研究 赵伟燕  王静宇 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要.现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比.实验证明,

基于MapReduce的分布式极图构造算法研究

基于MapReduce的分布式极图构造算法研究 北京交通大学 赵男 随着云计算技术的快速发展,很多与大规模数据处理相关的研究与应用都逐渐迁移到云计算环境中,如数据挖掘.网络搜索.图像处理以及生物信息分析等.对大规模的图数据处理技术也是当前高性能计算领域的研究热点.而在图论研究中,极图构造算法作为极图理论的一个重要研究内容,越来越受到人们的关注. 极图是指满足一定约定条件且边数最多的图,其构造算法产生大规模的临界图集合作为中间数据.传统的串行极图构造算法会因为需要处理的临界图数量的大幅增加而变得效

基于MapReduce的BP神经网络遗传算法在非线性系统辨识中的研究

基于MapReduce的BP神经网络遗传算法在非线性系统辨识中的研究 陈春萍  查雅行  钱平  龚丹丹 在工程应用中经常会遇到一些复杂s的非线性系统,这些系统状态方程复杂,难以用数学方法准确建模.三层BP神经网络能以任意精度逼近连续函数.但是BP网络具有易陷入局部最优值的缺点,在此基础上加入遗传算法.传统的串行化BP神经网络的训练方法处理海量数据时存在很大问题,例如耗时过长,甚至内存不足无法训练.为了解决这些问题,使用基于MapReduce的BP神经网络训练方法. 基于MapReduce的BP

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

基于MapReduce的电子商务个性化推荐研究

基于MapReduce的电子商务个性化推荐研究 北京交通大学  李小龙 随着大数据时代的到来,用户的个人信息以各种方式分布在不同的存储设备中,集成所有的用户信息并且通过一定的挖掘技术能够得出用户的潜在需求.目前电子商务发展飞速,移动电子商务更将在以后占据主导地位,如何能够迅速挖掘用户的个人潜在需求,把用户可能感兴趣的产品推送给用户成为大数据时代下,电子商务企业需要解决的问题.目前电子商务个性化推荐的精准度还有待提高,个性化推荐手段单一,并没有经过深层次的数据分析,而是已基于用户的浏览信息和购买信

【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究

选自<不一样的技术创新--阿里巴巴2016双11背后的技术>,全书目录:https://yq.aliyun.com/articles/68637 本文作者:灵培.霹雳.哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性.因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题.传统的Learning to Rank(LTR)方法主要是