Spark上对SequenceFile的支持

本文介绍现在Spark提供的API里对Hadoop SequenceFile的读写支持,涉及到的类和使用方式,包括scala环境和python环境。

Scala环境下的支持

spark下涉及到seqeucenfile的读写,主要有两类体系,第一类是带'sequenceFIle'的方法,第二类是带'ObjectFile'的方法。

以下是SparkContext下的三个读取seqeucenfile的方法,除了指定path路径外,还需要声明key,value对应的hadoop writable类,此外还可以指定分区数。

  def sequenceFile[K, V](path: String,
      keyClass: Class[K],
      valueClass: Class[V],
      minPartitions: Int
      ): RDD[(K, V)] = {
    val inputFormatClass = classOf[SequenceFileInputFormat[K, V]]
    hadoopFile(path, inputFormatClass, keyClass, valueClass, minPartitions)
  }

  def sequenceFile[K, V](path: String, keyClass: Class[K], valueClass: Class[V]
      ): RDD[(K, V)] =
    sequenceFile(path, keyClass, valueClass, defaultMinPartitions)

  def sequenceFile[K, V]
       (path: String, minPartitions: Int = defaultMinPartitions)
       (implicit km: ClassTag[K], vm: ClassTag[V],
        kcf: () => WritableConverter[K], vcf: () => WritableConverter[V])
      : RDD[(K, V)] = {
    val kc = kcf()
    val vc = vcf()
    val format = classOf[SequenceFileInputFormat[Writable, Writable]]
    val writables = hadoopFile(path, format,
        kc.writableClass(km).asInstanceOf[Class[Writable]],
        vc.writableClass(vm).asInstanceOf[Class[Writable]], minPartitions)
    writables.map { case (k, v) => (kc.convert(k), vc.convert(v)) }
  }

读取的时候的K,V,可以直接写org.apache.hadoop.io.BytesWritable这样的类,也可以写基本类型,如Int,String,会被隐式转换成对应的org.apache.hadoop.io.IntWritable,org.apache.hadoop.io.Text。

另一方面,第二类方法是objectFile方法

  def objectFile[T: ClassTag](
      path: String,
      minPartitions: Int = defaultMinPartitions
      ): RDD[T] = {
    sequenceFile(path, classOf[NullWritable], classOf[BytesWritable], minPartitions)
      .flatMap(x => Utils.deserialize[Array[T]](x._2.getBytes, Utils.getContextOrSparkClassLoader))
  }

该方法对应的是RDD里面saveAsObjectFile的方法,key class是NullWritable,value class是BytesWritable,且反序列化过程也指明好了,利用的是Utils里的序列化方法,可以看到,里面的序列化利用的是java原生的序列化方式,如下:

  /** Deserialize an object using Java serialization */
  def deserialize[T](bytes: Array[Byte]): T = {
    val bis = new ByteArrayInputStream(bytes)
    val ois = new ObjectInputStream(bis)
    ois.readObject.asInstanceOf[T]
  }

  /** Deserialize an object using Java serialization and the given ClassLoader */
  def deserialize[T](bytes: Array[Byte], loader: ClassLoader): T = {
    val bis = new ByteArrayInputStream(bytes)
    val ois = new ObjectInputStream(bis) {
      override def resolveClass(desc: ObjectStreamClass) =
        Class.forName(desc.getName, false, loader)
    }
    ois.readObject.asInstanceOf[T]
  }

下面先继续介绍sequencefile的写方法,调用的是RDD的saveAsObjectFile方法,如下,

  /**
   * Save this RDD as a SequenceFile of serialized objects.
   */
  def saveAsObjectFile(path: String) {
    this.mapPartitions(iter => iter.grouped(10).map(_.toArray))
      .map(x => (NullWritable.get(), new BytesWritable(Utils.serialize(x))))
      .saveAsSequenceFile(path)
  }

对应到SparkContext里的objectFile方法,RDD的save也指定了key、value的writable类,利用的是同一套序列化方式,

  /** Serialize an object using Java serialization */
  def serialize[T](o: T): Array[Byte] = {
    val bos = new ByteArrayOutputStream()
    val oos = new ObjectOutputStream(bos)
    oos.writeObject(o)
    oos.close()
    bos.toByteArray
  }

回过头继续看RDD的saveAsObjectFile方法里,在做完map操作后,其实是隐式生成了SequenceFileRDDFunction类,具体implicit的定义在SparkContext里:

  implicit def rddToSequenceFileRDDFunctions[K <% Writable: ClassTag, V <% Writable: ClassTag](
      rdd: RDD[(K, V)]) =
    new SequenceFileRDDFunctions(rdd)

所以其实调用的是SequenceFileRDDFunction的saveAsSequenceFile方法,在该方法里,最终调用的是RDD的saveHadoopFile这个老的hadoop file方法,并且传递了SequenceFileOutputFormat这个format给saveHadoopFile方法,从而完成hadoop file的写入。

下面是一个简单的读写sequencefile的例子,可以自己在spark-shell里尝试下

val list = List("ss", "rdd", "egerg", 324, 123)
val r = sc.makeRDD(list, 1)
r.saveAsObjectFile("hdfs:/your/path/list")

val file = sc.sequenceFile[Null,org.apache.hadoop.io.BytesWritable]("hdfs:/your/path/list/part-00000")
val bw = file.take(1).apply(0)._2
val bs = bw.getBytes

import java.io._
val bis = new ByteArrayInputStream(bs)
val ois = new ObjectInputStream(bis)
ois.readObject

上面在读出来反序列化的时候,我模仿Utils里的方式利用java.io手动反序列出来了。

其实也可以模仿RDD的那个saveAsObjectFile方法,自己设定key,value,序列化方式等设置,改造下面这段代码里的transformation过程,

  def saveAsObjectFile(path: String) {
    this.mapPartitions(iter => iter.grouped(10).map(_.toArray))
      .map(x => (NullWritable.get(), new BytesWritable(Utils.serialize(x))))
      .saveAsSequenceFile(path)
  }

如上所说,已经比较清晰地说明了sequencfile读写的来龙去脉了,也给出了简单的读写例子,包括如何声明writable类型,甚至可以模仿RDD的saveAsObjectFile方法做到更好的读写控制。

pyspark下的支持

python环境下的支持可以参考这个PR,目前已经合进社区的master分支里了。之前python环境下只支持textFile。这个PR除了支持sequenceFile的读写外,还支持了hadoop下其他format文件的读取。主要是增加了PythonRDD里的sequenceFile、newAPIHadoopFile等的支持,然后在python/pyspark/context.py里增加了上下文里的相应方法支持,使得pyspark里也可以得到丰富的hadoop file读取的支持。

使用的话,直接读取就可以了

lines = sc.sequenceFile("hdfs:/your/path/list/part-00000")

总结

本文介绍了spark对hadoop sequencefile的读写支持,实现方式以及简单的使用方法。sequencefile和textfile类似,在上下文里有直接提供读取方法,但最终走的还是hadoopFile方法。

全文完 :)

时间: 2024-09-19 08:59:21

Spark上对SequenceFile的支持的相关文章

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

在Unix/Linux上令(java)JVM支持中文输出

unix|中文 原文: 在Unix/Linux上令(java)JVM支持中文输出 一.在Unix/Linux上令JVM支持中文输出 如果用户使用的是UNIX的远程服务器,就会遇到中文字体在图像中输出的问题,特别是由于许多管理员并不喜欢把主机的locale定为zh(因为意味着可能出乱码或必须装微形图形终端象zhcon,但很多情况下这样的条件并不具备).大部分程序员的JAVA经验苟限于JSP脚本程序,部分熟练的程序员大概开发过中间件.servlet.applet或在WINDOWS上运行的GUI程序.

商务部愿意在政策上、包括资金上给予实质性的支持

商务部外贸发展局局长冯洪章昨日表示,在中国IT企业的"走出去"方面,商务部愿意在政策上.包括资金上给予实质性的支持. 冯洪章是在昨日举办的"中国优秀电子品牌环球万里行"活动启动仪式上做出上述表示的.冯洪章说,商务部为响应国家走出去战略的号召出台了很多鼓励政策,包括海外办展.考察.境外投资等,也联合财政部出台了一些实质性的财政支持政策,还配合信息产业部帮助中国电子信息企业"走出去". 冯洪章在致辞中表态,"我们欢迎企业在海外有任何问题积极

Firefox 44.0将在Linux上启用H.264支持:GTK3仍缺席

随着 Firefox 43.0 的平稳落地,下面我们不妨预知下 Firefox 44.0 中将要迎来的大变化.12 月 18 号,Mozilla 发布了首个测试版本(Firefox 44.0 Beta 1),最显著的一点就是将启用 GNU/Linux 操作系统上的H.264 (如果跨平台的 FFmpeg 后端已安装的话).而在不支持 MP4/H.264 的机器上,也将支持 WebM/VP9 的视频回放. 遗憾的是,目前文档中并未提及任何有关 GTK3(for Linux)的消息.此前,Mozil

JS实现表单多文件上传样式美化支持选中文件后删除相关项_javascript技巧

开发中会经常涉及到文件上传的需求,根据业务不同的需求,有不同的文件上传情况. 有简单的单文件上传,有多文件上传,因浏览器原生的文件上传样式及功能的支持度不算太高,很多时候我们会对样式进行美化,对功能进行完善. 本文根据一个例子,对多文件的上传样式做了一些简单的美化(其实也没怎么美化..),同时支持选择文件后自定义删除相关的文件,最后再上传 文章篇幅较长,先简单看看图示: 一.文件上传基础 1. 单文件上传 最简单的文件上传,是单文件上传,form标签中加入enctype="multipart/f

K歌达人APP上传歌曲所支持格式解析

给各位K歌达人软件的使用者们来详细的解析分享一下上传歌曲所支持的格式. 解析分享:     K歌达人的歌曲为MP3格式,所以尽量将自己上传的歌曲统一成MP3格式 好了,以上的信息就是小编给各位K歌达人的这一款软件的使用者们带来的详细的上传歌曲所支持的格式解析分享的全部内容了,各位看到这里的软件使用者们,小编相信你们现在那是非常的清楚所支持的格式了吧,那么各位朋友们就快自己去上传一些想要分享给大家的歌曲吧.

spark上跑C++

问题描述 我有现成的封装好的C++库,想在spark上跑.怎么搞啊请大神指教 解决方案 解决方案二:dll(so)文件放到节点,用java调用试试

如何在 Ubuntu 15.04 上安装带 JSON 支持的 SQLite 3.9.1

如何在 Ubuntu 15.04 上安装带 JSON 支持的 SQLite 3.9.1 欢迎阅读我们关于SQLite 的文章,SQLite 是当今世界上使用最广泛的 SQL 数据库引擎,它基本不需要配置,不需要设置或管理就可以运行.SQLite 是一个是公开领域public-domain的软件,是一个关系型数据库管理系统(RDBMS),用来在一个大数据表中存储用户定义的记录.对于数据存储和管理来说,数据库引擎要处理复杂的查询命令,这些命令可能会从多个表获取数据然后生成报告和数据总结. SQLit

有在做Spark上实现ADMM的朋友么?

问题描述 本人是研一在读,最近在做期末的project,老师给的题目是用ADMM实现Lasso,Spark上还没有找到ADMM的优化包,所以想问下有没有人曾经研究过这个,可以交流一下!请各位大神帮忙,谢谢!QQ:597123266