Spark 0.8 集群(CentOS6.4)-简单统计测试

 环境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3

  1. 安装、部署集群环境

  参考前章《安装Spark 0.8集群(CentOS6.4) - 大数据之内存计算》

  2. 测试描述

  使用在线测试数据生工具,动态生成如下json数据(名称DATA[1-9].json):

  {"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},

  {"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},

  …

  可以数据可以先生成100M左右,然后通过linux cp / cat工具进行数据复制、合并,产生不同大小数据,方便测试。

  测试任务:

  对所有*.json数据的ip地址进行简单统计,包括:ip地址总数统计,“241.*”ip地址段总数统计。将其上传到HDFS集群上

  2.1启动 Spark 集群

  在master上执行


$>cd ~/spark-0.8.0

$>bin/start-all.sh

  检测进程是否启动


$> jps

11055 Jps

2313 SecondaryNameNode

2409 JobTracker

2152 NameNode

4822 Master

  浏览master的web UI(默认http://localhost:8080). 这是你应该可以看到所有的word节点,以及他们的CPU个数和内存等信息。

  2.2运行spark-shell从HDFS读取文件并统计IP地址


// set the master node of spark cluster and runspark-shell

$> MASTER=spark://centos01:7077./spark-shell

// read the json data

$>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")

// filter the json data

$>val ips = file.filter(line => line.contains("ip_address"))

// Count all the IP

$>ips.count()

// Count all the“241.*”IP

$>ips.filter(line => line.contains("241.")).count()

$>ips.filter(line => line.contains("241.")).collect()

  2.3 运行结果

最新内容请见作者的GitHub页:http://qaseven.github.io/

时间: 2024-10-30 06:46:19

Spark 0.8 集群(CentOS6.4)-简单统计测试的相关文章

Redis3.0.6集群搭建

创建一个RedisCluster之前,我们需要有一些以cluster模式运行的Redis实例,这是因为cluster模式下Redis实例将会开启cluster的特征和命令. 现在我有2台Vbox搭建的CentOS6虚拟机[CentOS1(192.168.56.101)和CentOS2(192.168.56.102)],准备在此上搭建Redis集群. 由于最小的Redis集群需要3个Master节点,本次测试使用另外3个节点作为备份的节点(Replicas),于是此次搭建需要6个Redis实例.由

《循序渐进学Spark 》Spark架构与集群环境

Spark架构与集群环境 本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括Spark SQL.Spark Streaming.MLlib和GraphX,接着简要描述了Spark的架构,便于读者认识和把握,最后描述了Spark集群环境搭建及Spark开发环境的构建方法. 1.1 Spark概述与架构 随着互联网规模的爆发式增长,不断增加的数据量要求应用程序能够延伸到更大的集群中去计算.与单台机器计算不同,集群计算引发了几个关键问题,如集群计算资源的共享

日志-求救啊!Hadoop 2.2.0 搭建集群 启动hdfs时候 namenode 启动后报空指针

问题描述 求救啊!Hadoop 2.2.0 搭建集群 启动hdfs时候 namenode 启动后报空指针 日志如下: 2015-02-07 01:01:46,610 FATAL org.apache.hadoop.hdfs.server.namenode.NameNode: Error encountered requiring NN shutdown. Shutting down immediately. java.lang.NullPointerException at org.apache

Redis 3.0 Cluster集群配置

Redis 3.0 Cluster集群配置 安装环境依赖 安装gcc:yum install gcc 安装zlib:yum install zib 安装ruby:yum install ruby 安装rubygems:yum install rubygems 安装ruby的redis驱动:gem install redis 安装redis 参考:http://www.cnblogs.com/rwxwsblog/p/5285732.html 修改配置文件 vi 6379.conf port=637

RedHat AS4-U2下Mysql 5.0.22集群配置

最近看到过很多关于cluster的资料,一直在研究linux系统级的负载均衡和高可用,但是还没有完全成功,只是实现了一些简单的服务:今天在搜集资料中看到有关mysql的cluster,看上去不是很复杂,就花了一个下午的时间研究研究,参考了Nanu前辈的MySQL集群配置步骤,一个简单的集群算是成功了.但是有一点我没搞懂,是不是mysql集群配置完成后,只能同步数据库中的表,而不能同步整个库?请高手指点一二,谢谢! 一.实验环境 1. Linux操作系统版本. RedHat AS4-U2 2. M

apache2.2.x和tomcat6.0.32集群并实现session复制功能

我测试是在windows7上测测试的, 需要准备的软件列表如: a. Apache2.2b. apache-tomcat-6.0.32-1我要集群的第一台tomcat服务器 c. apache-tomcat-6.0.32-2我要集群的第二台tomcat服务器 d. mod_jk.so 用户连接apache服务器和tomcat之间的组件 根据我个人的习惯,我喜欢先配置apache的http.conf之后,然后在去配置tomcat. 找到你的apache的安装目录如我的是在D:\Apache2.2,

java中RabbitMQ集群使用方法简单介绍

RabbitMQ是一个很受欢迎的消息中间件,通过它可以很方便地实现异构子系统之间的通讯,还可以将不同子系统之间进行解耦.它用erlang开发,基本上是实现了AMQP 1.0标准的消息协议. 了解RabbitMQ首先要了解以下一些概念:Message,Producer.Exchange.Queue.Consumer Message是一些简单的字符串, Producer(Publisher)是实际发布消息的角色 Queue,是实际存放消息的地方.顾名思义,消息从Queue一端放入,另一段由Consu

Hadoop 三台主机 集群搭建 详解(测试)

Hadoop 三台主机 集群搭建 详解 学习更多,请访问系列文章: 1. VMware Redhat网络配置 2. Hadoop 三台主机 集群搭建 详解 3. Windows 下配置 Eclipse 连接 Hadoop 开发环境 部署环境: OS:Redhat 5.5 Enterprise JDK:jdk1.6.0_32 Hadoop:Hadoop-0.20.2 VMWare:7.0 节点安排及网络拓扑: 节点类型 节点IP 节点hostname master节点 192.168.40.5 m

Redis集群方案,Codis安装测试

本文原文连接: http://blog.csdn.net/freewebsys/article/details/44100919 转载请注明出处! 1,关于豌豆荚开源的Codis Codis是豌豆荚使用Go和C语言开发.以代理的方式实现的一个Redis分布式集群解决方案,且完全兼容Twemproxy.Twemproxy对于上一层的应用来说, 连接Codis Proxy(Redis代理服务)和连接原生的Redis服务器没有明显的区别,上一层应用能够像使用单机的 Redis一样对待.Codis底层会