hadoop压缩与解压

1 压缩

一 般来说,计算机处理的数据都存在一些冗余度,同时数据中间,尤其是相邻数据间存在着相关性,所以可以通过一些有别于原始编码的特殊编码方式来保存数据, 使数据占用的存储空间比较小,这个过程一般叫压缩。和压缩对应的概念是解压缩,就是将被压缩的数据从特殊编码方式还原为原始数据的过程。

压缩广泛应用于海量数据处理中,对数据文件进行压缩,可以有效减少存储文件所需的空间,并加快数据在网络上或者到磁盘上的传输速度。在Hadoop中,压缩应用于文件存储、Map阶段到Reduce阶段的数据交换(需要打开相关的选项)等情景。

数 据压缩的方式非常多,不同特点的数据有不同的数据压缩方式:如对声音和图像等特殊数据的压缩,就可以采用有损的压缩方法,允许压缩过程中损失一定的信 息,换取比较大的压缩比;而对音乐数据的压缩,由于数据有自己比较特殊的编码方式,因此也可以采用一些针对这些特殊编码的专用数据压缩算法。

2 Hadoop压缩简介

Hadoop作为一个较通用的海量数据处理平台,在使用压缩方式方面,主要考虑压缩速度和压缩文件的可分割性。

所 有的压缩算法都会考虑时间和空间的权衡,更快的压缩和解压缩速度通常会耗费更多的空间(压缩比较低)。例如,通过gzip命令压缩数据时,用户可以设置 不同的选项来选择速度优先或空间优先,选项–1表示优先考虑速度,选项–9表示空间最优,可以获得最大的压缩比。需要注意的是,有些压缩算法的压缩和解压 缩速度会有比较大的差别:gzip和zip是通用的压缩工具,在时间/空间处理上相对平衡,gzip2压缩比gzip和zip更有效,但速度较慢,而且 bzip2的解压缩速度快于它的压缩速度。

当 使用MapReduce处理压缩文件时,需要考虑压缩文件的可分割性。考虑我们需要对保持在HDFS上的一个大小为1GB的文本文件进行处理,当前 HDFS的数据块大小为64MB的情况下,该文件被存储为16块,对应的MapReduce作业将会将该文件分为16个输入分片,提供给16个独立的 Map任务进行处理。但如果该文件是一个gzip格式的压缩文件(大小不变),这时,MapReduce作业不能够将该文件分为16个分片,因为不可能从 gzip数据流中的某个点开始,进行数据解压。但是,如果该文件是一个bzip2格式的压缩文件,那么,MapReduce作业可以通过bzip2格式压 缩文件中的块,将输入划分为若干输入分片,并从块开始处开始解压缩数据。bzip2格式压缩文件中,块与块间提供了一个48位的同步标记,因 此,bzip2支持数据分割。

表3-2列出了一些可以用于Hadoop的常见压缩格式以及特性。

表3-2 Hadoop支持的压缩格式

为了支持多种压缩解压缩算法,Hadoop引入了编码/解码器。与Hadoop序列化框架类似,编码/解码器也是使用抽象工厂的设计模式。目前,Hadoop支持的编码/解码器如表3-3所示。

表3-3 压缩算法及其编码/解码器

同一个压缩方法对应的压缩、解压缩相关工具,都可以通过相应的编码/解码器获得。

3 Hadoop压缩API应用实例?12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.URI; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.io.compress.CompressionCodec;import org.apache.hadoop.io.compress.CompressionCodecFactory;import org.apache.hadoop.io.compress.CompressionInputStream;import org.apache.hadoop.io.compress.CompressionOutputStream;import org.apache.hadoop.util.ReflectionUtils; public class CodecTest {    public static void main(String[] args) throws Exception {        compress("org.apache.hadoop.io.compress.BZip2Codec");//        compress("org.apache.hadoop.io.compress.GzipCodec");//        compress("org.apache.hadoop.io.compress.Lz4Codec");//        compress("org.apache.hadoop.io.compress.SnappyCodec");        // uncompress("text");        // uncompress1("hdfs://master:9000/user/hadoop/text.gz");    }     // 压缩文件    public static void compress(String codecClassName) throws Exception {        Class<?> codecClass = Class.forName(codecClassName);        Configuration conf = new Configuration();                 FileSystem fs = FileSystem.get(conf);        CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf);        //输入和输出均为hdfs路径        FSDataInputStream in = fs.open(new Path("/test.log"));        FSDataOutputStream outputStream = fs.create(new Path("/test1.bz2"));                 System.out.println("compress start !");                 // 创建压缩输出流        CompressionOutputStream out = codec.createOutputStream(outputStream);        IOUtils.copyBytes(in, out, conf);        IOUtils.closeStream(in);        IOUtils.closeStream(out);        System.out.println("compress ok !");    }     // 解压缩    public static void uncompress(String fileName) throws Exception {        Class<?> codecClass = Class                .forName("org.apache.hadoop.io.compress.GzipCodec");        Configuration conf = new Configuration();        FileSystem fs = FileSystem.get(conf);        CompressionCodec codec = (CompressionCodec) ReflectionUtils                .newInstance(codecClass, conf);        FSDataInputStream inputStream = fs                .open(new Path("/user/hadoop/text.gz"));        // 把text文件里到数据解压,
然后输出到控制台        InputStream in = codec.createInputStream(inputStream);        IOUtils.copyBytes(in, System.out, conf);        IOUtils.closeStream(in);    }     // 使用文件扩展名来推断二来的codec来对文件进行解压缩    public static void uncompress1(String uri) throws IOException {        Configuration conf = new Configuration();        FileSystem fs = FileSystem.get(URI.create(uri), conf);         Path inputPath = new Path(uri);        CompressionCodecFactory factory = new CompressionCodecFactory(conf);        CompressionCodec codec = factory.getCodec(inputPath);        if (codec == null) {            System.out.println("no codec found for " + uri);            System.exit(1);        }        String outputUri = CompressionCodecFactory.removeSuffix(uri,                codec.getDefaultExtension());        InputStream in = null;        OutputStream out = null;        try {            in = codec.createInputStream(fs.open(inputPath));            out = fs.create(new Path(outputUri));            IOUtils.copyBytes(in, out, conf);        } finally {            IOUtils.closeStream(out);            IOUtils.closeStream(in);        }    } }

原文链接:http://my.oschina.net/mkh/blog/335297

时间: 2024-12-28 10:22:16

hadoop压缩与解压的相关文章

Linux下常见文件格式的压缩、解压小结

大致总结了一下linux下各种格式的压缩包的压缩.解压方法.但是部分方法我没有用到,也就不全,希望大家帮我补充,我们将随时修改完善,谢谢! .tar 解包: tar xvf FileName.tar 打包:tar cvf FileName.tar DirName (注:tar是打包,不是压缩!) --------------------------------------------- .gz 解压1:gunzip FileName.gz 解压2:gzip -d FileName.gz 压缩:g

Linux操作系统中,*.zip、*.tar、*.tar.gz、*.tar.bz2、*.tar.xz、*.jar、*.7z等格式的压缩与解压

zip格式 压缩: zip -r [目标文件名].zip [原文件/目录名] 解压: unzip [原文件名].zip 1 2 1 2 注:-r参数代表递归 tar格式(该格式仅仅打包,不压缩) 打包:tar -cvf [目标文件名].tar [原文件名/目录名] 解包:tar -xvf [原文件名].tar 1 2 1 2 注:c参数代表create(创建),x参数代表extract(解包),v参数代表verbose(详细信息),f参数代表filename(文件名),所以f后必须接文件名. t

asp.net SharpZipLib的压缩与解压问题_实用技巧

我使用SharpZipLib.dll中遇到的问题是:利用SharpZipLib压缩后生成的*.rar文件,利用其可以正常解压,但如果使用文件右击压缩生成的*.RAR文件,在解压过程中出错,具体报错信息:Wrong Local header signature: 0x21726152 ;但*.zip文件可正常解压. 具体压缩.解压代码实现参照网络上的代码,贴出概要代码: 复制代码 代码如下: /// <summary> /// 压缩文件 /// </summary> /// <

大文件(1g左右)-压缩、解压 大文件 C#

问题描述 压缩.解压 大文件 C# 如何用c#写一个压缩.解压的文件 文件大小为1G左右.我用 ICSharpCode.SharpZipLib.Zip;这个组件,只能实现小文件的压缩,不能实现大文件的压缩,一压缩就报错.哪位有什么好的方法实现大文件压缩呢. 解决方案 C# 文件压缩与解压c#解压.压缩文件C#下文件的压缩与解压

asp.net c# ZIP文件压缩与解压

asp教程.net c# zip文件压缩与解压 using system; using system.collections.generic; using system.text; using system.io; using icsharpcode.sharpziplib.zip; using system.diagnostics; using icsharpcode.sharpziplib.core; namespace testconsole {     class program    

Zip 压缩、解压技术在 HTML5 浏览器中的应用

原文:Zip 压缩.解压技术在 HTML5 浏览器中的应用 JSZip 是一款可以创建.读取.修改 .zip 文件的 javaScript 工具.在 web 应用中,免不了需要从 web 服务器中获取资源,如果可以将所有的资源都合并到一个 .zip 文件中,这时候只需要做一次请求,这样既减少了服务器的压力,同时也可以加快 web 应用的呈现速度. 今天就来探讨下 JSZip 如何与 HT 拓扑应用结合.先来看看这期 Demo 的效果图:   第一步.需要将应用对相关资源打包成 .zip 文件,

python通过zlib实现压缩与解压字符串的方法_python

本文实例讲述了python通过zlib实现压缩与解压字符串的方法.分享给大家供大家参考.具体实现方法如下: 使用zlib.compress可以压缩字符串.使用zlib.decompress可以解压字符串.如下 复制代码 代码如下: #coding=utf-8 import zlib s = "hello word, 00000000000000000000000000000000" print len(s) c = zlib.compress(s) print len(c) d = 

Python实现压缩与解压gzip大文件的方法_python

本文实例讲述了Python实现压缩与解压gzip大文件的方法.分享给大家供大家参考,具体如下: #encoding=utf-8 #author: walker #date: 2015-10-26 #summary: 测试gzip压缩/解压文件 import gzip BufSize = 1024*8 def gZipFile(src, dst): fin = open(src, 'rb') fout = gzip.open(dst, 'wb') in2out(fin, fout) def gun

python用模块zlib压缩与解压字符串和文件的方法_python

python中zlib模块是用来压缩或者解压缩数据,以便保存和传输.它是其他压缩工具的基础.下面来一起看看python用模块zlib压缩与解压字符串和文件的方法.话不多说,直接来看示例代码. 例子1:压缩与解压字符串 import zlib message = 'abcd1234' compressed = zlib.compress(message) decompressed = zlib.decompress(compressed) print 'original:', repr(messa