巧妙利用Hadoop大数据处理功能

  Hadoop的大">数据处理功能可用来挖掘数据、探索看起来没有关联的信息之间的关系、以及快速解决软件工程师使用传统技术正在努力解决的问题挖,对Hadoop的大数据处理功能如此之多的用途软件专业人士从来就没有感到奇怪过。

  住院的病人是否正在饱受着葡萄球菌感染的痛苦?当谈论到使用多种NoSQL和Hadoop的方法解决真实世界问题时,全球教育Hortonworks的高级主管Danielle Tomlinson,谈论了一个很有意思的案例,此案例中,通过在健康保健专业人员的徽章中使用射频识别技术,收集了关于他们卫生习惯的一些数据。“他们把一个传感器放在洗手槽中,” Tomlinson说。“他们能够看哪些医生没有在洗手站上花费足够的时间,导致疾病的传播。”

  实时解决大数据问题

  当然,Hadoop最好的一方面是它的实时处理巨大量数据的能力。一个久居数据中心深处的开发人员是如何了解高速公路上的交通如何的?据 Tomlinson所说,有些城市只是追踪数百万手机用户上的GPS位置,分析那些数据,然后基于那手机在交通中的走向如何,来建立实时流量报告。那些大数的收集及大数据处理,都是在Hadoop平台完成的。

  当然,对于大多数企业Java专业人士,大数据仍然是个迷,但 Hortonworks决定改变这一现象。对于那些对学习Hadoop的人来说,Hortonworks Sandbox是一个聪明的开始,因为它提供了一个个人的、便携的Hadoop环境,还有一系列交互式的Hadoop指导。所有这些都打包在一个虚拟环境中,你可以在15分钟之内得到它并运行它。

  对于那些正在寻找解决大数据问题方法的软件架构师,或者对于那些正在复习新技术的应用开发人员来说,Hortonworks Sandbox是一个很好的开始。但要注意:Hadoop会上瘾。很快,所有的问题都看起来像大数据问题,然后你就会想要使用Hadoop来解决每一个大数据处理问题。

原文链接:http://www.searchsoa.com.cn/showcontent_74290.htm

时间: 2024-10-13 19:17:22

巧妙利用Hadoop大数据处理功能的相关文章

0基础搭建Hadoop大数据处理-编程

Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA).网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和要点总结. Hadoop是一个强大的并行框架,它允许任务在其分布式集群上并行处理.但是编写.调试Hadoop程序都有很大难度.正因为如此,Hadoop的开发者开发出了Hadoop Eclipse插件,它在Hadoop的开发环境中嵌入了Eclipse,从而实现了开发环境的图形化,降低了编程难度.在安装

Hadoop——大数据处理的宠儿

驱动大数据增长的主要因素包括移动设备和社交网络的大幅度增长.以往纸质文件的数字化以及科研数据的增长."他们的存档文件正在高速增长,因为他们并不清楚哪些需要保存,哪些不需要保存,"EMC旗下的Isilon公司美国首席技术官Rob Peglar说道. 各个产业的公司都在为大数据分析投入大量资金.其中一个产业为对病人数据进行分析诊疗的医疗产业.Peglar说,在金融服务产业,对数据进行定性分析也颇受关注.在这方面,分析的是杂乱无章的股票交易数据.大数据分析在制造和设计业的应用也有所增长,但增

零基础搭建Hadoop大数据处理-初识

在互联网的世界中数据都是以TB.PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示. 大数据什么叫大?4个特征: 体量化 Volume,就是量大. 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快. 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价

0基础搭建Hadoop大数据处理-初识

在互联网的世界中数据都是以TB.PB的数量级来增加的,特别是像BAT光每天的日志文件一个盘都不够,更何况是还要基于这些数据进行分析挖掘,更甚者还要实时进行数据分析,学习,如双十一淘宝的交易量的实时展示. 大数据什么叫大?4个特征: 体量化 Volume,就是量大. 多样化 Variety,可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等 快速化 Velocity,产生快,处理也需要快. 价值密度低 Value,数据量大,但单个数据没什么意义,需要宏观的统计体现其隐藏的价

零基础搭建Hadoop大数据处理-环境

由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍. VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机,省时省力,需要注意的是需要修改每个虚拟机的IP与主机名. 所有虚拟机采用NAT模式上网,而且要保证与物理主机的IP互相能访问. 需要注意的几个问题.nat如果上网首先需要查看物理机(pc机)这个服务器已经启动.上网

0基础搭建Hadoop大数据处理-环境

  由于Hadoop需要运行在Linux环境中,而且是分布式的,因此个人学习只能装虚拟机,本文都以VMware Workstation为准,安装CentOS7,具体的安装此处不作过多介绍,只作需要用到的知识介绍. VMware的安装,装好一个虚拟机后利用复制虚拟机的方式创建后面几个虚拟机,省时省力,需要注意的是需要修改每个虚拟机的IP与主机名. 所有虚拟机采用NAT模式上网,而且要保证与物理主机的IP互相能访问. 需要注意的几个问题.nat如果上网首先需要查看物理机(pc机)这个服务器已经启动.

0基础搭建Hadoop大数据处理-集群安装

经过一系列的前期环境准备,现在可以开始Hadoop的安装了,在这里去apache官网下载2.7.3的版本 http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 不需要下载最新的3.0版本, 与后续Hive最新版本有冲突,不知道是不是自己的打开方式不对.    hadoop有三种运行方式:单机.伪分布式.完全分布式,本文介绍完全分布式. 安装Hadoop 现在有三个机器,一个Maste

《R与Hadoop大数据分析实战》一2.5 在R环境中编写Hadoop MapReduce程序的方式

2.5 在R环境中编写Hadoop MapReduce程序的方式 我们知道对将R工具用于分析的统计学家.网络分析师以及产品经理来说,用MapReduce进行Hadoop大数据处理是一件非常重要的事,因为补充MapReduce的编程知识对于用Hadoop将分析整合到MapReduce来说是必要的.并且,我们知道R是一个一直以来普及程度逐步提升的工具:为了整合R,有许多程序包和函数库一直在改进.因此为了研发基于R和Hadoop计算能力运行的MapReduce算法程序,我们需要R和Hadoop的中间软

《Hadoop大数据分析与挖掘实战》——2.5节小结

2.5 小结本章从介绍大数据基础概念讲起,引入了Hadoop大数据处理平台,简要介绍了Hadoop以及Hadoop生态系统.接着,详细介绍了使用VMware虚拟机搭建分布式Hadoop集群环境的步骤,使读者可以根据搭建步骤一步步来搭建自己的集群,方便后面的学习实验.然后,介绍了Hadoop的各个模块,包括Hadoop HDFS文件系统.Hadoop MapReduce编程框架.Hadoop YARN资源管理和分配器的原理.最后,给出了详细设计的实验,可以使读者在了解原理的前提下,动手实践,加深对