Spark..........WordCount

quickstart 将英文单词基数简单整个过程比起hadoop快很多


package com.zhiyou100

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    //创建分布式运行平台  和appname
    //使用master制定运行平台 yarn staandalong mesos(生产坏境) local（开发调试）
    //local(单线程) local[N]（多线程） local[*]（本地cpu有多少个核心就启动多少个线程）

//    val conf =new SparkConf().setMaster("local[2]").setAppName("word count")
//    val conf =new SparkConf().setMaster("spark://master:7077").setAppName("word count")
    val conf = new SparkConf()//.setAppName("word count")
    conf.set("spark.testing.memory", "2147480000")//后面的值大于512m即可

    // 构建SparkContect对象
    val sc =new SparkContext(conf)
    //加载数据源 获取RDD对象
    val fileRdd =sc.textFile("/reversetext/LICENSE.txt").flatMap(line=>line.split("\\s")).map(x=>(x,1)).reduceByKey((v1,v2)=>v1+v2)

    println("这是一个Driver 输出")

    fileRdd.foreach(println)

  }

}

时间： 2025-01-19 14:27:26

Spark..........WordCount的相关文章

[spark]WordCount问题，输出结果总是不对，求帮忙

问题描述进入spark-shell,进行测试:输入,然后执行:,输出结果总是1,无语,折腾了我好久,已疯,希望大神们帮个忙!!!下面是我的hdfs文件:,从最后一图看,单词数那么多,怎么也不是一个啊解决方案解决方案二:你好,你这样统计的并不是单词的个数,而是rdd的个数,你需要这样做:valwords=readmeFile.flatMap(_.split(""))valwordCounts=words.map(x=>(x,1)).reduceByKey(_+_)wordCo

阿里云E-MapReduce Spark 作业配置

1.进入阿里云 E-MapReduce 控制台作业列表. 2.单击该页右上角的创建作业,进入创建作业页面. 3.填写作业名称. 4.选择 Spark 作业类型,表示创建的作业是一个 Spark 作业.Spark 作业在 E-MapReduce 后台使用以下的方式提交: spark-submit [options] --class [MainClass] xxx.jar args 5.在应用参数选项框中填写提交该 Spark 作业需要的命令行参数.请注意,应用参数框中只需要填写"spark-sub

Spark修炼之道（进阶篇）——Spark入门到精通：第三节 Spark Intellij IDEA开发环境搭建

作者:周志湖网名:摇摆少年梦微信号:zhouzhihubeyond 本节主要内容 Intellij IDEA 14.1.4开发环境配置 Spark应用程序开发 1. Intellij IDEA 14.1.4开发环境配置 Intellij IDEA 功能十分强大,能够开发JAVA.Scala等相关应用程序,在依赖管理智能提示等方面做到了极致,大家可以到:http://www.jetbrains.com/idea/download/下载,目前有两种:Ultimate Edition Free

深入理解PHP 数组之count 函数_php实例

count() PHP count() 函数用于计算数组中的单元数目或对象中的属性个数,返回数组的单元个数或对象中的属性个数. 语法: int count( mixed var [, int mode] )如果 var 是非数组的普通变量,则返回 1 ,对于不存在.未初始化或空数组返回 0 . 可选参数 mode 设为 COUNT_RECURSIVE(或 1),count() 将递归地对数组计数,这对计算多维数组的所有单元尤其有用,但 count() 识别不了无限递归.mode 的默认值是 0

mySQL count多个表的数据实例详解_Mysql

一.实现需求最近在做成就系统,成就中有很多维度都和数量有关,比如用户粉丝数达到多少50个,授予名扬四海称号,用户点赞达到 100 次,授予点赞圣手称号等等. 粉丝数在 user_relation 表点赞数在 user_praise 表按照以往的做法,如果需要查询用户的这些数据,又因为数据是在不同的表中,所以往往会分开多条 SQL 查询,比如: SELECT count(*) mysh FROM user_relation WHERE other_uid =123456; SELEC

深入理解PHP中的count函数_php实例

在PHP编程中,在遍历数组的时候经常需要先计算数组的长度作为循环结束的判断条件,而在PHP里面对数组的操作是很频繁的,因此count也算是一个常用函数,下面研究一下count函数的具体实现. 我在github上有对PHP源码更详细的注解.感兴趣的可以围观一下,给个star.PHP5.4源码注解.可以通过commit记录查看已添加的注解. count int count ( mixed $array_or_countable [, int $mode = COUNT_NORMAL ] ) coun

测试spark集群入门级wordcount出错，求大神们帮忙解决啊

问题描述测试spark集群入门级wordcount出错,求大神们帮忙解决啊 Created by jyq on 10/14/15.*/就这么点源代码 import org.apache.spark.{SparkConfSparkContextSparkFiles} object WordCount { def main(args: Array[String]):Unit= { val conf =new SparkConf().setAppName(""WordCount"

spark streaming问题-六台机器集群，40M数据就报错，spark streaming运行例子程序wordcount

问题描述六台机器集群,40M数据就报错,spark streaming运行例子程序wordcount 请大神帮忙解决一下:六台机器,SparkStreaming的例子程序,运行在yarn上四个计算节点(nodemanager),每台8G内存,i7处理器,想测测性能. 自己写了socket一直向一个端口发送数据,spark 接收并处理运行十几分钟汇报错:WARN scheduler TaskSetManagerost task 0.1 in stage 265.0 :java.lang.Exc

Spark之wordcount程序（Java Scala）

1.Java /** 使用java开发本地测试的wordcount程序 @author Administrator * */ public class WordCountLocal { public static void main(String[] args) { // 编写Spark应用程序 // 本地执行,是可以执行在eclipse中的main方法中,执行的 // 第一步:创建SparkConf对象,设置Spark应用的配置信息 // 使用setMaster()可以设置Spark应用程序要