关于spark与cassandra结合使用的问题!!官网案列跑不通!!!!!

问题描述

关于spark与cassandra结合使用的问题!!官网案列跑不通!!!!!直接贴代码,我基本上都是按照官网案列来的!!!如下:分不够,只剩下这么点了....望大家帮帮我maven依赖:<!--sparkjava先注释--><dependency><groupId>com.datastax.spark</groupId><artifactId>spark-cassandra-connector_2.10</artifactId><version>1.6.0-M2</version></dependency><dependency><groupId>com.datastax.spark</groupId><artifactId>spark-cassandra-connector-java_2.10</artifactId><version>1.6.0-M1</version></dependency><!--sparkjava结束--><!--sparkcore--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.10</artifactId><version>1.6.1</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.10</artifactId><version>1.6.1</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.10</artifactId><version>1.6.1</version></dependency><!--sparkcore结束--><!--cassandra驱动--><dependency><groupId>com.datastax.cassandra</groupId><artifactId>cassandra-driver-core</artifactId><version>3.0.1</version></dependency><!--cassandra实体对象映射相关连的包--><dependency><groupId>com.datastax.cassandra</groupId><artifactId>cassandra-driver-mapping</artifactId><version>3.0.1</version></dependency>然后直接就是测试代码了:/***获取连接*/publicstaticJavaSparkContextgetConnection(){//获取连接方式SparkConfconf=newSparkConf(true).setAppName("sparkandcassandra")//.set("spark.testing.memory","2147480000")//分配内存,内存不足512M.set("spark.cassandra.connection.host","192.168.1.13");JavaSparkContextsc=newJavaSparkContext("spark://192.168.1.13:7077","SparkOptionCassandra1",conf);System.out.println(sc.master()+":"+sc.appName());returnsc;}/***spark读取cassandra表数据22222*/publicstaticvoidgetDataFromCassandra(){JavaSparkContextsc=getConnection();try{JavaRDD<String>cassandraRowsRDD=javaFunctions(sc).cassandraTable("xmmsg","people").map(newFunction<CassandraRow,String>(){publicStringcall(CassandraRowcassandraRow)throwsException{returncassandraRow.toString();}});System.out.println("DataasCassandraRows:n"+StringUtils.join("n",cassandraRowsRDD.collect()));}catch(Exceptione){e.printStackTrace();}finally{sc.stop();sc.close();}}然后报错信息:然后保存也是:哎/***持久化数据到cassandra数据库*/publicstaticvoidsavePerson(){try{JavaSparkContextsc=getConnection();List<Person>people=Arrays.asList(Person.newInstance(1,"John",newDate()),Person.newInstance(2,"Anna",newDate()),Person.newInstance(3,"Andrew",newDate()));JavaRDD<Person>rdd=sc.parallelize(people);javaFunctions(rdd).writerBuilder("xmmsg","people",mapToRow(Person.class)).saveToCassandra();}catch(Exceptione){e.printStackTrace();}}报错信息:请大神帮帮我,谢谢啦!!!!!!!还有一个关于sparksql的问题:publicstaticvoidwriteResouces(){JavaSparkContextsc=getConnection("first","local");SQLContextsqlContext=newSQLContext(sc);DataFramedf=sqlContext.read().format("json").load("c://test//people.json");//不知道为什么输出的文件居然是文件夹?win和linux区别?df.select("name","age").write().format("parquet").save("c://test/namesAndAges2.parquet");//可以这么查询DataFramedf2=sqlContext.sql("SELECT*FROMparquet.`c://test/namesAndAges2.parquet");System.out.println(df2.count());}为什么我在win本地生成是namesAndAges2.parquet文件夹呢,里面啥东西都没有,在linux上面能生成文件,但是没法读取!!

解决方案

本帖最后由 tianlong0388 于 2016-06-02 10:45:04 编辑
解决方案二:
为什么没人呢,哎...

时间: 2024-10-30 08:30:48

关于spark与cassandra结合使用的问题!!官网案列跑不通!!!!!的相关文章

【Spark Summit EU 2016】基于Spark与Cassandra的电信产品化解决方案

本讲义出自Brij Bhushan Ravat在Spark Summit EU上的演讲,主要介绍了爱立信公司研发的基于Spark与Cassandra的电信产品化解决方案Voucher Server. Brij Bhushan Ravat从什么是产品化这个命题入手,分享了关于产品和Voucher Server 进化的观点,并对Voucher Server这款产品进行了简单介绍,并分享了Voucher Server面对的挑战与其发展进化的过程以及关于产品的运行和维护的挑战.

你想找的Python资料这里全都有!没有你找不到!史上最全资料合集

GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广.awesome-python 是 vinta 发起维护的 Python 资源列表,内容包括:Web框架.网络爬虫.网络内容提取.模板引擎.数据库.数据可视化.图片处理.文本处理.自然语言处理.机器学习.日志.代码分析等.在给大家分享之前呢,小编推荐一下一个挺不错的交流宝地,里面都是一群热爱并在学习Python的小伙伴们,大几千了吧,各种各样的人群都有,特别喜欢看到这种大家一起交流解决难题的氛围,群资料

Spark-Spark Streaming例子整理(二)

Spark Streaming从Flume Poll数据 一.Spark Streaming on Polling from Flume实战 二.Spark Streaming on Polling from Flume源码 第一部分: 推模式(Flume push SparkStreaming) VS 拉模式(SparkStreaming poll Flume) 采用推模式:推模式的理解就是Flume作为缓存,存有数据.监听对应端口,如果服务可以链接,就将数据push过去.(简单,耦合要低),

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka

在今天的文章中,我们将着重探讨如何利用SMACK(即Spark.Mesos.Akka.Cassandra以及Kafka)堆栈构建可扩展数据处理平台.虽然这套堆栈仅由数个简单部分组成,但其能够实现大量不同系统设计.除了纯粹的批量或者流处理机制之外,我们亦可借此实现复杂的Lambda以及Kappa架构. 在本文开始阐述之前,让我们首先立足于已有生产项目经验从设计与示例入手进行说明. 综述 • Spark - 一套高速通用型引擎,用于实现分布式大规模数据处理任务. • Mesos - 集群资源管理系统

Data Processing with SMACK: Spark, Mesos, Akka, Cassandra, and Kafka

Data Processing with SMACK: Spark, Mesos, Akka, Cassandra, and Kafka This article introduces the SMACK (Spark, Mesos, Akka, Cassandra, and Kafka) stack and illustrates how you can use it to build scalable data processing platforms While the SMACK sta

DCOS实践分享(4):如何基于DC/OS整合SMACK(Spark, Mesos, Akka, Cassandra, Kafka)

这篇文章入选CSDN极客头条 http://geek.csdn.net/news/detail/71572 当前,要保证业务的市场竞争力,仅靠设计一个可用并且好看的产品,已经完全不能满足要求.全球消费者都希望产品能够足够的智能化,通过大数据分析来改善他们的用户体验.简言之,物联网和大数据终将成为改变生活的技术驱动力. 近几年涌现了大量的技术架构与设计模式,开发者和科学家可以利用它们为大数据和物联网开发实时的数据分析工作流应用.其中批处理架构,流式处理架构,lambda架构,Kappa架构,都是其

Cassandra联手Spark 大数据分析将迎来哪些改变?

2014http://www.aliyun.com/zixun/aggregation/13383.html">Spark峰会在美国旧金山举行,与会数据库平台供应商DataStax宣布,与Spark供应商Databricks合作,在它的旗舰产品 DataStax Enterprise 4.5 (DSE)中,将Cassandra NoSQL数据库与Apache Spark开源引擎相结合,为用户提供基于内存处理的实时分析. Databricks是一家由Apache Spark创始人成立的公司.

【PDF大放送】Spark&amp;Hadoop Summit精选分享PDF合集

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作一个厨房所以需要的各种工具,锅碗瓢盆,各有各的用处,互相之间又有重合.你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮.但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择. Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速运算和存储.Hadoop实现了一个分布式文件系统(Had

Spark设计理念与基本架构

<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析>一书第一章的内容请看链接<第1章 环境准备> 本文主要展示本书的第2章内容: 第2章 设计理念与基本架构 "若夫乘天地之正,而御六气之辩,以游无穷者,彼且恶乎待哉?" --<庄子·逍遥游> 本章导读:       上一章,介绍了Spark环境的搭建,为方便读者学习