spark idea 的配置问题

不知道下面的错误是为什么?

Error:scalac: missing or invalid dependency detected while loading class file 'RDD.class'.
Could not access term hadoop in package org.apache,
because it (or its dependencies) are missing. Check your build definition for
missing or conflicting dependencies. (Re-run with `-Ylog-classpath` to see the problematic classpath.)
A full rebuild may help if 'RDD.class' was compiled against an incompatible version of org.apache.

我i下面这个version应该写啥?写1.6.1 不对啊,没有找到

想跑一下下面的代码,死活有问题,哎,我就很讨厌java这套东西,环境配置半天不说,还慢的要死

/**
  * Created by Administrator on 2016/3/31.
  */

import org.apache.spark.{SparkConf, SparkContext}
/**
  * Created by Administrator on 2016/3/31.
  */
import scala.math.random

import org.apache.spark._
object simpleApp {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Pi").setMaster("local")
    val spark = new SparkContext(conf)
    val slices = if (args.length > 0) args(0).toInt else 2
    val n = math.min(100000L * slices, Int.MaxValue).toInt // avoid overflow
    val count = spark.parallelize(1 until n, slices).map { i =>
        val x = random * 2 - 1
        val y = random * 2 - 1
        if (x*x + y*y < 1) 1 else 0
      }.reduce(_ + _)
    println("Pi is roughly " + 4.0 * count / n)
    spark.stop()
  }
}

下面分享一个ibm 大数据基础的培训资料:

http://download.csdn.net/detail/wangyaninglm/9478412

时间: 2024-09-03 14:52:23

spark idea 的配置问题的相关文章

ssh-spark的配置问题,启动不了

问题描述 spark的配置问题,启动不了 在sbin下启动 ./start-all.sh 出现如下错误 ** starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-1.6.1-bin-hadoop2.6/logs/spark-root-org.apache.spark.deploy.master.Master-1-ubuntu.out master: ssh: Could not res

学习Spark——那些让你精疲力尽的坑

这一个月我都干了些什么-- 工作上,还是一如既往的写bug并不亦乐乎的修bug.学习上,最近看了一些非专业书籍,写点小感悟,我刚稍稍瞄了下,最近五篇居然都跟技术无关,看来我与本行业已经是渐行渐远了. 所以,趁着这篇博客,重拾自己,认清自己,要时刻谨记我是一名码农.不过,摸着良心说,最近的技术方面也是有所感悟和积累的,比如如何写好设计文档,如何使用延时队列,如何使用防刷技术等等.当然了,今天我们还是沿着"学习Spark"这条路继续走下去. 这篇就介绍下自己遇到的各种坑.我不知道各位是否遇

spark部署问题

问题描述 场景:三个sparkstreaming作业(暂且叫a.b.c),作业a接收来自kafka的原始日志,处理后,再用两个不同的topic发到kafka,作业b和作业c分别从kafka接收这两个不同的topic.机器:三台虚拟机,4核,内存10G(安装了cdh5.3.3,安装是内存为4G,后来扩到10G)问题:①部署模式为local,这三个作业能正常运行,都能接收kafka,并进行处理./usr/lib/spark-1.3.1-bin-hadoop2.4/bin/spark-submit--

Spark Streaming 数据产生与导入相关的内存分析

前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现. 一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark Streaming 源码解析系列,我觉得写的不错,这里也推荐下. 我在部门尽力推荐使用Spark Streaming做数据处理,目前已经应用在日志处理,机器学习等领域.这期间也遇到不少问题,尤其是Kafka在接受到的数据量非常大的情况下,会有一些内存相关的问题. 另外特别说明下,

xmpp-基于XMPP spark客户端 多人聊天室,消息记录问题?

问题描述 基于XMPP spark客户端 多人聊天室,消息记录问题? 1.spark客户端加入某个聊天室,都会获取该聊天室之前所有的记录.因为我对openfire不太了解,没看过源码.想问一下,返回的聊天记录是不是有一定条数限制?2.还有对于这个浪费流量,很不合理的问题,有么有在原有机制上的改过的方式(或者说是改openfire源码)?

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

Spork: Pig on Spark实现分析

介绍 Spork是Pig on Spark的highly experimental版本,依赖的版本也比较久,如之前文章里所说,目前我把Spork维护在自己的github上:flare-spork. 本文分析的是Spork的实现方式和具体内容. Spark Launcher 在hadoop executionengine包路径下,写了一个Spark启动器,同MapReduceLauncher类似,会在launchPig的时候,把传入的物理执行计划进行翻译. MR启动器翻译的是MR的操作,以及进一步

大数据分析平台Hadoop与Spark之争

ZD至顶网软件频道消息 原创文章(文/邓晓蕾): 有人把大数据称为信息资产.有人称为金矿.甚至社会财富.而大数据,即,无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.Gartne认为"大数据"是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要.对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键.大数据

spark sql简单示例

运行环境 集群环境:CDH5.3.0 具体JAR版本如下: spark版本:1.2.0-cdh5.3.0 hive版本:0.13.1-cdh5.3.0 hadoop版本:2.5.0-cdh5.3.0 spark sql的JAVA版简单示例 spark sql直接查询JSON格式的数据 spark sql的自定义函数 spark sql查询hive上面的表 import java.util.ArrayList; import java.util.List; import org.apache.sp