基于Hadoop的房产信息服务的方法

基于Hadoop的房产信息服务的方法

俞栋辉 于明远 叶蕾 梁荣华

针对大数据信息服务的运算效率的问题,提出一种基于Hadoop的房产信息服务方法,设计并实现了一个房产信息服务原型系统.使用Hadoop搭建分布式文件系统,在该文件系统之上使用RCFile对数据进行存储管理.此外,在该系统中集成数据索引、数据压缩等技术,并提出一种SQL高效查询机制———SQL-JM,将SQL查询转变成MapReduce作业,提高查询效率.前端使用一些信息可视化技术,如Treemap,Stream Graph,折线图等对数据进行直观展示.用户通过浏览器登录该系统后,可以申请并使用相关房产信息服务.Hive,HadoopDB,MySQL等数据库系统的查询对比实验验证了该系统能提高查询效率.

关键词 房产信息服务;Hadoop;查询优化;原型系统;数据管理

基于Hadoop的房产信息服务的方法

时间: 2024-09-23 02:41:21

基于Hadoop的房产信息服务的方法的相关文章

基于Hadoop的遥感数字图像处理方法研究

基于Hadoop的遥感数字图像处理方法研究 东北师范大学   周涛 本文基于Hadoop云计算系统,主要利用并行编程框架MapReduce实现遥感数字图像的增强处理以及对增强后图像进行聚类,并与PC串行处理进行比较研究.针对遥感数字图像的整体亮度偏低.目视效果较差的特点,传统的图像增强方法在遥感数字图像上的处理无法达到人眼舒适的目视判读的效果,以及影响后续处理的问题,本文在无损增强方法的基础上进行了改进,使得原始图像的有效图像区域的无效像素点能够参与增强,实验结果表明该方法达到了很好的目视效果.

基于Hadoop用户行为分析系统设计与实现

基于Hadoop用户行为分析系统设计与实现 北京交通大学  郝增勇 本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统.本系统实现了海量数据包抓取和分布式存储.TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑.本文采用了基于Hadoop的用户行为分析方法,首

基于Hadoop的化合物生物活性分析系统

基于Hadoop的化合物生物活性分析系统 李杰辉,张亮,陈健,南蓬 通过药物虚拟筛选,发现在具有生物活性化合物过程中,存在小分子结构相似性比较计算繁杂等问题.为此,结合MapReduce模型,提出一种基于Hadoop 的并行计算模型处理方法,并通过Hadoop 工具予以实现.同时根据Hadoop 分区算法不均匀.容错功能存在重复计算等问题对该方法进行改进.实验结果表明,该方法平均加速效率达到0.91,具有较好的可靠性和扩展性. 关键词:生物活性:生物信息学:并行计算:可扩展性:数据库:Hadoo

基于Hadoop的海量小文件存储方法的研究

基于Hadoop的海量小文件存储方法的研究 时倩 方睿 岳亮 彭榆峰 随着科学技术的发展,各行业及领域需要处理的数据呈爆炸式增长.Hadoop是大文件存储处理的理想平台,但Hadoop在处理海量小文件时的表现并不令人满意.本文首先对HDFS的系统架构作了简要介绍,进而分析了HDFS处理海量小文件时存在的问题,最后介绍了目前国内外对该问题提出的优化方案. 基于Hadoop的海量小文件存储方法的研究

基于Hadoop的OA期刊论文资源发现及采集方法

基于Hadoop的OA期刊论文资源发现及采集方法 燕山大学  杜宝瑞 互联网上大量OA期刊论文资源属于深层Web(DeepWeb)资源,传统的搜索引擎不能对其有效地建立索引,用户在检索时很难得到期望的OA期刊论文资源.解决该问题的一条有效途径就是实现互联网上OA期刊论文资源的集成整合,并为用户提供一个统一.透明的检索服务接口,而OA期刊论文资源的发现和采集则是其重要环节.针对海量OA期刊论文资源的处理,分布式存储和并行机制可大大提高其效率.基于Hadoop的分布式文件系统(HDFS)和并行机制(

基于Hadoop数据仓库Hive1.2部署及使用

接下来安装Hadoop数据仓库Hive,上节了解HBase简单使用,听起来HBase与Hive有些类似,概念也有点模糊,那我们先了解下他们之间有什么区别:   HBase是一种分布式.面向列的NoSQL数据库,基于HDFS存储,以表的形式存储数据,表由行和列组成,列划分到列族中.HBase不提供类SQL查询语言,要想像SQL这样查询数据,可以使用Phonix,让SQL查询转换成hbase的扫描和对应的操作,也可以使用现在说讲Hive仓库工具,让HBase作为Hive存储.   Hive是运行在H

基于Hadoop云计算智能家居信息处理平台

近年来,在物联网等具有海量数据需求的应用变得越来越普遍时,无论是从科学研究还是从应用开发的角度来看,掌握云计算技术已成为一种趋势.智能家居作为物联网应用的主要领域之一,自然离不开云计算.云计算的发展使用户无需关注复杂的内部工作机制.无需具备丰富的分布式系统知识及开发经验,即可实现大规模分布式系统规定部署,以及海量数据的并行处理. Hadoop是目前较为成熟和应用较为广泛的云计算架构之一.Hadoop的核心思想是分布式并行处理.Hadoop技术中的关键技术是 HDFS(分布式文件系统)和Map/R

基于Hadoop的海量小型XML数据文件处理技术的设计和实现

基于Hadoop的海量小型XML数据文件处理技术的设计和实现 西安电子科技大学 孔鑫 本文重点研究了如下内容:1)设计了专门针对海量小数据XML文件进行处理的分布式海量小型XML数据处理系统(Distributed Massive SmallXML files system,DMSX),该系统的主要思想就是将海量小数据XML文件在Hadoop系统中高效的进行处理.2)该系统通过运用生产者-消费模式,多线程并发技术,多级缓存技术等,来提高系统的整体处理能力.3)该系统通过对合并后的文件进行分段存储

基于hadoop的推荐系统设计与实现

基于hadoop的推荐系统设计与实现 电子科技大学  唐真 主要工作内容如下:1.通过对Hadoop运行机制和MapReduce编程原理的研究,结合对推荐系统与推荐算法,特别是对以物质扩散推荐算法和热传导推荐算法为代表的网络推荐算法的深入分析,设计和实现基于Hadoop平台的网络推荐算法MapReduce化编程实现方案,将该算法复杂的计算任务分解为一系列MapReduce作业流程,以便于在Hadoop和云计算平台上进行分布式并行化处理,通过一系列实验测试证明算法在集群上具有良好的并行性和可扩展性