基于Hadoop平台的新闻云方案设计

基于Hadoop平台的新闻云方案设计

尚凤军 谈娅

社会进步离不开新闻传播,新闻的传播和共享是提高人类素质的重要方法?为改善新闻的服务水平,采用云计算的先进理念和先进技术,设计了一个新闻云原型平台,为新闻行业提供服务?该平台引入Hadoop作为新闻数据的存储核心,使用Hive数据库解决数据转换和查找,能够完成海量数据的检索?对设计的方案进行了部分测试,达到了设计要求?

基于Hadoop平台的新闻云方案设计

时间: 2024-10-22 15:37:59

基于Hadoop平台的新闻云方案设计的相关文章

[文档]基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 [下载地址]http://bbs.chinacloud.cn/showtopic-12728.aspx

基于Hadoop的智能调度云数据中心关键技术研究

基于Hadoop的智能调度云数据中心关键技术研究 华北电力大学   杨龑骄 本文针对智能电网调度云数据中心的三个关键问题进行了重点研究.第一.云数据中心内部网络结构.在分析对比传统网络结构算法以及最新提出的BCube.DCell数据中心网络结构算法的前提下,提出了更具有扩展性.容错性的PCube网络结构算法:第二.Hadoop云平台的副本存储策略.针对Hadoop现有副本存放策略的不足,本文研究目前学者提出HDFS改进存储策略--CoHadoop副本存储策略,并在此基础上对其智能性加以改进,依靠

[文档]基于Hadoop 平台的数据分析方案的设计应用

基于Hadoop 平台的数据分析方案的设计应用 姜文,辛阳,陈林顺 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分布式计算的应用成为必然的趋势.其中Hadoop 是应用较多的分布式存储和计算框架之一.本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分析,给出相应Map/Reduce 程序的设计思路和实例,并提出Map/Reduce 分布式程序的部分设计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce 程序设

基于Hadoop平台的分布式ETL研究与实现

基于Hadoop平台的分布式ETL研究与实现 东华大学  何刚 本文作者主要研究和实现的工作如下第一,分布式ETL框架的设计.分析Hadoop平台下的MapReduce工作机制和作业调度,以数据仓库中维度建模的理论为依据,设计了一个包括维度和事实的并行处理和HDFS数据块分配的分布式ETL框架.第二,事实并行处理的研究.从事实表查找代理键和多粒度事实预聚合两个角度着手,提出了在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法.实验结果表明,与Hive数据仓库相比,两种算法在并

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现 西安电子科技大学 李林 Hadoop是解决大数据存储和分析问题的分布式模型.聚类算法能通过聚类生成码书,对视觉数据进行特征表达.如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题.针对大规模视觉数据聚类问题,本文设计并实现了基于Hadoop模型的视觉数据聚类算法,提高了视觉数据聚类的效率. 本文首先介绍了视觉特征,分析了在视觉信息聚类生成码书过程中存在的维数灾难问题.然后,本文详细分析Hadoop分布式模型,设计并实现了基

基于Hadoop平台的教育资源库建设

基于Hadoop平台的教育资源库建设 闫娟  耿凯峰  刘丽 首先介绍了云计算的相关概念,其次阐述了当前教育资源库建设的现状以及存在的问题,进而提出基于Hadoop平台的教育资源库建设方案,最后详细介绍了其核心模块的实现过程. 下载地址:http://bbs.chinacloud.cn/showtopic-18404.aspx

基于Hadoop平台的TFIDF算法并行化研究

基于Hadoop平台的TFIDF算法并行化研究 王静宇 赵伟燕 计算机工程与科学 2014年06期 基于Hadoop平台的TFIDF算法并行化研究

基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现 厦门大学 梁世磊 本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率.首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisual Words特征代表的实现过程,并阐述了几类重要的模式分类方法

基于Hadoop平台的大数据分析关键技术标准化探讨

基于Hadoop平台的大数据分析关键技术标准化探讨 高洪  杨庆平  黄震江 分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集.并行计算框架.分析结果输出.并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议. 关键词--大数据分析: 计算框架: 并行分析算法: Hadoop 基于Hadoop平台的大数据分析关键技术标准化探讨