Spark连接北京区S3

问题描述

各位好,初学Spark,想让Spark从S3上的数据Spark搭建在EC2上我在spark-shell下执行:sc.hadoopConfiguration.set("fs.s3a.access.key","xxxx")sc.hadoopConfiguration.set("fs.s3a.secret.key","yyyy")valtextFile=sc.textFile("s3a://...")textFile.count()异常:15/12/2113:29:58INFOS3AFileSystem:CaughtanAmazonServiceException,whichmeansyourrequestmadeittoAmazonS3,butwasrejectedwithanerrorresponseforsomereason.15/12/2113:29:58INFOS3AFileSystem:ErrorMessage:StatusCode:403,AWSService:AmazonS3,AWSRequestID:A5C5253A63B271A6,AWSErrorCode:null,AWSErrorMessage:Forbidden15/12/2113:29:58INFOS3AFileSystem:HTTPStatusCode:40315/12/2113:29:58INFOS3AFileSystem:AWSErrorCode:null15/12/2113:29:58INFOS3AFileSystem:ErrorType:Client15/12/2113:29:58INFOS3AFileSystem:RequestID:A5C5253A63B271A615/12/2113:29:58INFOS3AFileSystem:ClassName:com.cloudera.com.amazonaws.services.s3.model.AmazonS3Exceptioncom.cloudera.com.amazonaws.services.s3.model.AmazonS3Exception:StatusCode:403,AWSService:AmazonS3,AWSRequestID:A5C5253A63B271A6,AWSErrorCode:null,AWSErrorMessage:Forbidden,S3ExtendedRequestID:7zaafP60a1U8pt02jayWuWtf1ONVd1g5n6/xAbutkxtU/M1ZvtSV0pjVzPN2aFOpANTj5R7Cikg=atcom.cloudera.com.amazonaws.http.AmazonHttpClient.handleErrorResponse(AmazonHttpClient.java:798)atcom.cloudera.com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:421)atcom.cloudera.com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:232)atcom.cloudera.com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3528)看起来是被服务器拒绝(403)了请问是不是我操作哪里错了?是否跟北京区S3有关,默认访问了global的?Endpoint/Region?另外有链接给我学习一下s3://、s3n://、s3a://的区别吗?我该用哪个?谢谢!

时间: 2024-09-16 12:57:50

Spark连接北京区S3的相关文章

Spark连接Hadoop读取HDFS问题小结

Spark与hadoop版本 我使用0.7.2的Spark版本,且是pre-built过的版本,支持的hadoop版本是hadoop1.在http://spark-project.org/files/上能下载的预编译过的spark版本里,凡是预编译cdh4的压缩包,下载后解压会中断,文件本身有问题.我在google论坛上发帖说明了这个问题:https://groups.google.com/forum/#!topic/spark-users/Y4iJ1458d18.所以我现在使用预编译了1代ha

Spark连接JDBC数据源

在实际的项目环境中,成熟的技术体系对关系型数据库的依赖远远超过hdfs,而且对大数据运算的结果,实践中也倾向于保存到数据库中,以便进行多种方式的可视化.所以本次实践主要完成spark从mysql中读取和写入数据.一般这个操作有两种方式,一种是自己建立jdbc连接,像一般数据库操作一样的写法,一种就是利用spark自带的jdbc操作函数. 首先要把mysql jdbc connector的jar包上传到集群中每台机器的spark/jars目录,这是一个讨巧的办法,因为spark运行之前一定把这里面

《Spark 官方文档》在Mesos上运行Spark

在Mesos上运行Spark Spark可以在由Apache Mesos 管理的硬件集群中运行. 在Mesos集群中使用Spark的主要优势有: 可以在Spark以及其他框架(frameworks)之间动态划分资源. 可以同时部署多个Spark实例,且各个实例间的资源分配可以调整. 工作原理 在独立部署的Spark集群中,下图里的Cluster Manager代表Spark master.然而,在Mesos集群中,Mesos master将取代Spark master在下图中的地位. 如果一个S

Spark随谈——开发指南(译)

本文翻译自官方博客,略有添加:https://github.com/mesos/spark/wiki/Spark-Programming-Guide,谢谢师允tx的校正.希望能够给希望尝试Spark的朋友,带来一些帮助.目前的版本是0.5.0 Spark开发指南 从高的层面来看,其实每一个Spark的应用,都是一个Driver类,通过运行用户定义的main函数,在集群上执行各种并发操作和计算 Spark提供的最主要的抽象,是一个弹性分布式数据集(RDD),它是一种特殊集合,可以分布在集群的节点上

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka

在今天的文章中,我们将着重探讨如何利用SMACK(即Spark.Mesos.Akka.Cassandra以及Kafka)堆栈构建可扩展数据处理平台.虽然这套堆栈仅由数个简单部分组成,但其能够实现大量不同系统设计.除了纯粹的批量或者流处理机制之外,我们亦可借此实现复杂的Lambda以及Kappa架构. 在本文开始阐述之前,让我们首先立足于已有生产项目经验从设计与示例入手进行说明. 综述 • Spark - 一套高速通用型引擎,用于实现分布式大规模数据处理任务. • Mesos - 集群资源管理系统

Run Spark on Mesos with Zookeeper

本文面向对Spark,Mesos和Zookeeper有一点了解的读者,介绍下Run Spark on Mesos with Zookeeper的方法和一些注意点.因为Spark和Mesos的相关文档里,关于结合Zookeeper之后应该怎么改写相应URL和参数这块讲得不太清楚. 版本信息 Zookeeper 3.4.5 stable Spark 0.8 Mesos 0.13 没有Zookeeper的时候 Mesos master通过下面的方式启动自己并挂起来(Mesos-0.13里,起maste

Spark集群安装和使用

本文主要记录 CDH5 集群中 Spark 集群模式的安装过程配置过程并测试 Spark 的一些基本使用方法. 安装环境如下: 操作系统:CentOs 6.5 Hadoop 版本:cdh-5.4.0 Spark 版本:cdh5-1.3.0_5.4.0 关于 yum 源的配置以及 Hadoop 集群的安装,请参考 使用yum安装CDH Hadoop集群. 1. 安装 首先查看 Spark 相关的包有哪些: $ yum list |grep spark spark-core.noarch 1.3.0

Oozie分布式任务的工作流——Spark篇

Spark是现在应用最广泛的分布式计算框架,oozie支持在它的调度中执行spark.在我的日常工作中,一部分工作就是基于oozie维护好每天的spark离线任务,合理的设计工作流并分配适合的参数对于spark的稳定运行十分重要. Spark Action 这个Action允许执行spark任务,需要用户指定job-tracker以及name-node.先看看语法规则: 语法规则 <workflow-app name="[WF-DEF-NAME]" xmlns="uri

Using Amazon S3 from Perl

数据管理(Data management)对于任何资源型站点都是一项艰巨而又重要的挑战.随着指数级增长的海量数据和多媒体的日益流行,甚至是小型的资源行站点也必要进行有效的管理和发布大量的数据.另外,如果简易的站点外数据资源管理(offsite storage resource)带来工作的省心,想必对于所有站点维护人员都是一大福音. 在SundayMorningRides.com上,我们为终端用户们管理数据量不断持续增长的GPS(全球定位系统),GIS(地理信息系统)数据和网页内容(文字,图像,视