基于Hadoop的微博热点话题挖掘系统研究与设计

基于Hadoop的微博热点话题挖掘系统研究与设计

陆瑶  李振婷

本文首先介绍了Web数据挖掘理论、Hadoop技术理论及国内外微博热点话题挖掘领域研究现状。在此基础上对传统微博热点话题挖掘方法进行综合及改进,旨在研究与设计基于Hadoop的微博热点话题挖掘系统。

关键词:Hadoop;数据挖掘;微博;热点话题

基于Hadoop的微博热点话题挖掘系统研究与设计

时间: 2024-07-30 05:34:36

基于Hadoop的微博热点话题挖掘系统研究与设计的相关文章

基于Hadoop的智能电网监控系统的设计与实现

基于Hadoop的智能电网监控系统的设计与实现 杜旭 刘森 颜璟仪 科技创新与应用 2014年17期 基于Hadoop的智能电网监控系统的设计与实现

全媒体时代基于Hadoop的电视台视频转码系统研究

全媒体时代基于Hadoop的电视台视频转码系统研究 吴锋 本文就全媒体时代电视台对视频转码的需求,详细讨论了基于Hadoop云计算平台的快速视频转码系统的实现原理以及该系统中的创新点. 全媒体时代基于Hadoop的电视台视频转码系统研究

基于Hadoop的并行共享决策树挖掘算法研究

基于Hadoop的并行共享决策树挖掘算法研究 陈湘涛    张超   韩茜 共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在

基于Hadoop的推荐系统研究与应用

基于Hadoop的推荐系统研究与应用 湖北工业大学 杨庄 为了更好的解决推荐系统发展中存在的这些问题,提高协同过滤算法的准确性,本文以解决这些问题为目标,对以下三个方面进行了讨论与研究:①重点研究了协同过滤算法在推荐系统中的应用,提出了数据稀疏度导致的协同过滤推荐准确度不高问题,提出了混合推荐算 Hadoop: 协同过滤: 混合推荐: 数据稀疏度法的概念.②本文思考利用云计算平台来解决传统协同过滤算法在实施过程中遇到的可扩展性及实时性问题,采用Apache的开源项目Hadoop作为算法的开发平台

基于Hadoop的医院数据中心系统设计与实现

基于Hadoop的医院数据中心系统设计与实现 浙江大学  张洪磊 本论文首先完成医院数据中心系统的开发,然后以电子病历系统为例,实现了结构化数据在数据中心的高速读取和存储:以PACS系统为例,实现了非结构化数据在数据中心的高速存储和读取:在机器学习平台上实现了推荐引擎算法.以Hadoop分布式框架为基础构建医院的数据中心系统具有实施成本低.数据存储安全可靠.系统易扩展.数据读写速度快.计算能力强等特点.数据中心系统与现有医院临床信息系统可实现无缝集成,为医院提供结构化数据和非结构化数据的高速存储

腾讯微博和Discuz!联手,推出基于腾讯微博的Discuz!插件版

摘要: 近日,腾讯微博和Discuz!联手,推出基于腾讯微博的Discuz!插件版.此插件通过论坛和微博信息量的深度结合,打通不同传播介质.用户信息间的互动,或将极大提升微博与论坛用户之间 近日,腾讯微博和Discuz!联手,推出基于腾讯微博的Discuz!插件版.此插件通过论坛和微博信息量的深度结合,打通不同传播介质.用户信息间的互动,或将极大提升微博与论坛用户之间互促式活跃度提升,进而深度融合用户在不同互联网应用介质中的关系链网络和信息流转. 而对于站长来说,腾讯微博Discuz! 插件为每

基于Hadoop的汽车后市场商品数据平台设计

基于Hadoop的汽车后市场商品数据平台设计 华南理工大学 李石清 首先对Hadoop及相关技术进行研究,分析了Hadoop与云计算的联系,并着重介绍了Hadoop的HDFS分布式系统和MapReduce编程架构.对HDFS的特性.数据块抽象技术.和HDFS的Master-Slave(管理者-工作者)模式进行深入研究,对MapReduce的特性和架构模式也进行了相应的研究.另外根据商品数据非结构化的特点,还着重分析了MongoDB非结构化数据库的特性和工作方式.随后根据项目的详细需求分析结果和H

基于Hadoop的广域测量系统数据处理

基于Hadoop的广域测量系统数据处理 曲朝阳: 朱莉: 张士林 为解决目前广域测量系统(WAMS)海量数据处理中存在的数据冗余.处理效率低等问题,设计并实现了一个基于Hadoop的WAMS数据处理云计算平台.首先,给出了平台的体系结构.其次,设计了基于Hadoop分布式文件系统(HDFS)存储的WAMS海量数据加载方法和利用MapReduce模型实现多个文件数据的并行抽取.转换和加载(ETL)操作流程.提出了结合MapReduce的MPApriori数据挖掘算法,用于高效地挖掘出连锁故障时各站

基于Hadoop的智能调度云数据中心关键技术研究

基于Hadoop的智能调度云数据中心关键技术研究 华北电力大学   杨龑骄 本文针对智能电网调度云数据中心的三个关键问题进行了重点研究.第一.云数据中心内部网络结构.在分析对比传统网络结构算法以及最新提出的BCube.DCell数据中心网络结构算法的前提下,提出了更具有扩展性.容错性的PCube网络结构算法:第二.Hadoop云平台的副本存储策略.针对Hadoop现有副本存放策略的不足,本文研究目前学者提出HDFS改进存储策略--CoHadoop副本存储策略,并在此基础上对其智能性加以改进,依靠