基于hadoop的推荐系统设计与实现

基于hadoop的推荐系统设计与实现

电子科技大学  唐真

主要工作内容如下:1.通过对Hadoop运行机制和MapReduce编程原理的研究,结合对推荐系统与推荐算法,特别是对以物质扩散推荐算法和热传导推荐算法为代表的网络推荐算法的深入分析,设计和实现基于Hadoop平台的网络推荐算法MapReduce化编程实现方案,将该算法复杂的计算任务分解为一系列MapReduce作业流程,以便于在Hadoop和云计算平台上进行分布式并行化处理,通过一系列实验测试证明算法在集群上具有良好的并行性和可扩展性。2.在网络推荐算法的MapReduce化方案的基础上,使用combiner函数、sequence file输入输出类型等优化方法,分析数据集的长尾分布数据特征和算法计算过程中的实现细节,提出通过在资源分配矩阵的计算过程中利用Pair和Stripe方案以及对极度活跃用户进行剪切的优化设计思想,有效地解决算法的性能瓶颈问题,改进基于Hadoop的网络推荐算法的MapReduce方案,并通过实验测试证明改进方法可以进一步提高算法的效率。3.研究了包括Hadoop、Mahout、Sqoop、Ganglia等一系列相关开源软件的安装、部署和使用方法,结合本文设计的网络推荐算法的MapReduce化方案,经过系统需求、系统框架和流程的设计、系统的实现和系统的测试几个步骤,在多台计算机组成的集群环境下设计、实现和部署了基于Hadoop的推荐原型系统。

基于hadoop的推荐系统设计与实现

时间: 2024-10-24 18:30:54

基于hadoop的推荐系统设计与实现的相关文章

基于Hadoop的推荐系统研究与应用

基于Hadoop的推荐系统研究与应用 湖北工业大学 杨庄 为了更好的解决推荐系统发展中存在的这些问题,提高协同过滤算法的准确性,本文以解决这些问题为目标,对以下三个方面进行了讨论与研究:①重点研究了协同过滤算法在推荐系统中的应用,提出了数据稀疏度导致的协同过滤推荐准确度不高问题,提出了混合推荐算 Hadoop: 协同过滤: 混合推荐: 数据稀疏度法的概念.②本文思考利用云计算平台来解决传统协同过滤算法在实施过程中遇到的可扩展性及实时性问题,采用Apache的开源项目Hadoop作为算法的开发平台

基于Hadoop用户行为分析系统设计与实现

基于Hadoop用户行为分析系统设计与实现 北京交通大学  郝增勇 本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统.本系统实现了海量数据包抓取和分布式存储.TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑.本文采用了基于Hadoop的用户行为分析方法,首

基于Hadoop的医院数据中心系统设计与实现

基于Hadoop的医院数据中心系统设计与实现 浙江大学  张洪磊 本论文首先完成医院数据中心系统的开发,然后以电子病历系统为例,实现了结构化数据在数据中心的高速读取和存储:以PACS系统为例,实现了非结构化数据在数据中心的高速存储和读取:在机器学习平台上实现了推荐引擎算法.以Hadoop分布式框架为基础构建医院的数据中心系统具有实施成本低.数据存储安全可靠.系统易扩展.数据读写速度快.计算能力强等特点.数据中心系统与现有医院临床信息系统可实现无缝集成,为医院提供结构化数据和非结构化数据的高速存储

商品搜索引擎---推荐系统设计

版权声明:本文为博主原创文章,转载注明出处http://blog.csdn.net/u013142781 目录(?)[+] 一.前言 结合目前已存在的商品推荐设计(如淘宝.京东等),推荐系统主要包含系统推荐和个性化推荐两个模块. 系统推荐: 根据大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品. 个性化推荐:对不同的用户,根据他们的口味和喜好给出更加精确的推荐,这时,系统需要了解需推荐内容和用户的

基于Hadoop大数据分析应用场景与实战

为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台. 一.Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合.它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域. 目前主流的三大分布式计算系统分别为:Hadoop.Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统.可以轻松地集成结构化.半结构化甚至非结

基于Hadoop的汽车后市场商品数据平台设计

基于Hadoop的汽车后市场商品数据平台设计 华南理工大学 李石清 首先对Hadoop及相关技术进行研究,分析了Hadoop与云计算的联系,并着重介绍了Hadoop的HDFS分布式系统和MapReduce编程架构.对HDFS的特性.数据块抽象技术.和HDFS的Master-Slave(管理者-工作者)模式进行深入研究,对MapReduce的特性和架构模式也进行了相应的研究.另外根据商品数据非结构化的特点,还着重分析了MongoDB非结构化数据库的特性和工作方式.随后根据项目的详细需求分析结果和H

基于Hadoop/hive架构的网络身份识别系统的设计与实现

基于Hadoop/hive架构的网络身份识别系统的设计与实现 南京邮电大学  付倩文 本文在实际系统开发的基础上,综述了一种基于Hadoop/hive架构的网络身份识别系统设计与实现的开发方案.将各个数据源的原始数据利用MapReduce进行层层清洗后,装载入一个新建的基于事件的数据仓库.随后,利用HiveQL语言,在专业工作流控制工具的控制下,根据用户要求完成数据的分析处理工作.最后,将数据分析结果展示给用户.该系统的功能已经部分投入使用,经过实际验证,其各项性能指标均达到用户要求,有很高的实

基于Hadoop的电子商务推荐系统的设计与实现

基于Hadoop的电子商务推荐系统的设计与实现 李文海 许舒人 为了解决大数据应用背景下大型电子商务系统所面临的信息过载问题 研 究 了 基于构建分布式电子商务推荐系统的方案采用基于模型实现的算法具有较高的伸缩性和性能 能高效地进行离线数据分析为了克服单一推荐技术的不足 设计了融合多种互补性推荐技术的混合推荐模型实验结果表明基于平台实现的推荐系统具有较好的伸缩性和性能. 基于Hadoop的电子商务推荐系统的设计与实现

基于Hadoop系统的MapReduce数据流优化

1 Hadoop管道改进思想 在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到 JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其输出.这样的方式只能等该Map任务完成后才能开始执行 Reduce任务,并且Map任务和Reduce任务的执行是分离的. 我们的改进思想是使Map任务和Reduce任务能够以管道的方式执行,即Map任务开始产生输出后直接发送给相应的Reduce任务,