Hadoop 一二事(1) - 简单介绍与杂谈

大数据大数据,身边很多朋友都在谈大数据,Big Data!!!

到底是什么,用来干嘛的,也很少有人说得出一二,那今天开始就简单说说这一二事吧

hadoop 的来源:是作者女儿的一个玩具 - 一只黄色的大象

发音 /hadu:p/ 

在Apache旗下作为一个开源项目

它不是云计算,却是云计算中的一部分,属于大数据这块

hadoop是一个开源的分布式计算系统

 

hadoop所解决的问题:

     海量数据存储 - HDFS (分布式文件系统,分布在多台电脑上进行存储)可以理解为一个大型的网盘,例如百度网盘,115网盘,可以进行上传下载

     海量数据分析 - MapReduce (分布式的计算模型)有多台机子进行数据的分析,例如原来工地有一个人搬砖,一次性搬100块砖头,后来分为100个人,每个人搬10块,同时会有老大工头监控这些小弟

 

hadoop擅长日志分析

 

现在的淘宝使用Stome来进行实时推荐

 

凌晨分析后的产生有用的数据,分为冷数据和热数据,冷数据存放在MyFox中(Mysql集群),热数据存放在Prom中(HBase集群)

 

实时流数据处理使用Storm,可以用于购买商品时实时推送推荐商品

Hive可以用于附近认识的人,朋友圈你可能认识的人,校内网(从网,或者说人人网)中的推荐认识的好友

 

现在hadoop已经出到了2,但是很多公司还是会基于1.0版本,因为稳定,也省去了迁移的风险

 

生态圈,各种掉渣天高大上(非常喜欢zookeeper)

 

hadoop的安装有2种

本地模式:使用eclipse进行调试,只有一个map,只有一个reduce

伪分布式:模拟多台机子,进行调试

集群模式:生产环境

 

 

 

 

时间: 2024-07-30 13:38:25

Hadoop 一二事(1) - 简单介绍与杂谈的相关文章

nginx 与 tomcat 集群 一二事 (0) - 简单介绍

最近看了nginx以及tomcat的集群,通俗的做一下简单总结吧 nginx 是一个http服务器,是由俄罗斯人发明的,目前主流的服务器,作为负载均衡服务器,性能非常好,最高支持5万个并发连接数,在淘宝被广泛使用(据说被淘宝的工程师优化到单机200万的并发,非常的厉害) 单个tomcat最大支持的用户并发量默认是150,在测试过程中250左右开始会有性能的问题 举个栗子,有3台tomcat,有N多请求同时经过nginx的时候,nginx作为一个路由,把请求分别分发给这3台tomcat,以此减少t

nginx 一二事(1) - 简单图片服务器解决方案

最近经常有人问图片上传怎么做,有哪些方案做比较好,也看到过有关于上传图片的做法,但是都不是最好的 今天再这里简单讲一下上传图片以及图片服务器的大致理念 如果是个人项目或者企业小项目,仅仅只有十来号人使用的小项目,可以使用如下方案: 用户访问系统,使用上传图片功能,那么图片就上传到你的当前项目所在的tomcat服务器上,在/image下,上传成功后用户可以直接访问 http://ip:port/project/images/xxx.jpg 这样做在用户少的时候是没有问题的   当你的企业发展起来了

[Hadoop]转载-Pig的简单介绍

Pig是Yahoo!捐献给Apache的一个项目,目前还在Apache孵化器(incubator)阶段,目前版本是v0.5.0.Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算.Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口.本文介绍了Pig的安装及简单示例的运行,主要参考/翻译自官方文档的Pig Setup .  前提条件:  Linux/U

《JavaScript和jQuery实战手册(原书第2版)》——2.10节对象的简单介绍

2.10 对象的简单介绍 到目前为止,我们在本书中了解到,可以使用document.write()命令将一些内容写到Web页面中,可以确定一个数组中有多少个项目,只要输入数组的名字,后面跟着一个点号和单词"length"就可以了,例如,days.length.你可能会问,这些点号是干什么的?我们已经在不知道JavaScript的这一特殊语法的情况下学习3章内容了,现在该来了解一下它了. 对于JavaScript语言的很多元素,我们已经建立起了概念,包括Web页面的元素,也就是对象.当然

关于用ADO STREAM做的无组件上传程序简单介绍_FSO专题

前面有人贴了用ADO STREAM做的无组件上传程序,今天我做一下关于它的简单介绍 以前,如果要用ASP操作文件,比如移动.复制.删除或者创建一个记事本文件,基本上都是通过FILESYSTEMOBJECT对象做的,当然,这个东西很专业,也没说什么不好,它可以提供完善的文件信息,比如建立时间,大小,上次修改时间等等,但是如果你不做痛苦的高代价的字符格式转换的话,利用它你无法直接操作二进制文件. 但是,现在我们介绍的stream物件可以同时操作文本对象和二进制对象,要求是您的机器上要安装有ADO2.

关于用ADO STREAM做的无组件上传程序简单介绍

前面有人贴了用ADO STREAM做的无组件上传程序,今天我做一下关于它的简单介绍以前,如果要用ASP操作文件,比如移动.复制.删除或者创建一个记事本文件,基本上都是通过FILESYSTEMOBJECT对象做的,当然,这个东西很专业,也没说什么不好,它可以提供完善的文件信息,比如建立时间,大小,上次修改时间等等,但是如果你不做痛苦的高代价的字符格式转换的话,利用它你无法直接操作二进制文件.但是,现在我们介绍的stream物件可以同时操作文本对象和二进制对象,要求是您的机器上要安装有ADO2.5或

【图解】详细讲解Hadoop中的一个简单数据库HBase

HBase是 Hadoop中的一个简单数据库.它与Google的Bigtable特别相似,但也存在许多的不同之处. 数据模型 HBase数据库使用了和 Bigtable非常相似的数据模型.用户在表格里存储许多数据行.每个数据行都包括一个可排序的关键字,和任意数目的列.表格是稀疏的,所以同一个表格 里的行可能有非常不同的列,只要用户喜欢这样做. 列 名是"<族 名>:<标签>"形式,其中<族名>和<标签>可以是任意字符串.一个表格的<

简单介绍Python2.x版本中的cmp()方法的使用

  这篇文章主要介绍了简单介绍Python2.x版本中的cmp()方法的使用,然而该方法在Python3.x版本中已并不再内置...需要的朋友可以参考下 cmp()方法比较两个列表的元素. 语法 以下是cmp()方法的语法: ? 1 cmp(list1, list2) 参数 list1 -- 这是要进行比较的第一个列表 list2 -- 这是要进行比较的第二个列表 返回值 如果元素是相同类型的,执行比较,并返回结果.如果元素是不同的类型,检查,看看他们是否是数字 如果是数字必要时强制进行数字比较

WML教程2:简单介绍关于WML文件的概念WML Decks

概念|教程 这里简单介绍一个关于WML文件的概念,其他的细节问题会在后面的章节还详细介绍. 声明由于WML语言继承于XML,所以一个有效的WML文档必须包含一个XML声明和一个文件类型声明. 以下就是一个最常用的声明,由于WML语法要求非常严格,为了避免出错,制作者可以直接拷贝粘贴到制作文档. <?xml version="1.0"?> <!DOCTYPE wml PUBLIC "-//WAPFORUM//DTD WML 1.1//EN" &quo