String的序列化小结

String对我们来说太熟悉了,因为它无处不在,更因为用String可以描述这个世界几乎所有的东西,甚至于为了描述精确的数值都需要String出马(因为计算机眼中的二进制和人类眼中的十进制间总有那么点隔膜)。因为熟悉而变得简单,也容易被忽略。今天记录一下关于String的容易被忽略的两个问题。

  • 字符串重用——节省内存
    因为字符串太多,如果能够重用则能够节省很大的内存。首先看下面一个例子:

    String <span style="text-decoration: underline">string1</span> = "HELLOHELLO";
    
    String <span style="text-decoration: underline">string2</span> = "HELLO" + "HELLO";
    

上面创建了几个字符串?1 or 2?后者是动态创建的,不过相信JVM可以对其直接优化的,因为编译时已经知道内容了,猜测是一个instance,即同一个char数组。Heapdump出来后观察果然是一个。

String string3 = args[0]+ args[1];

输入参数HELLO HELLO? 字符串变成几个?没错啊,是两个HELLOHELLO了。Dump heap后观察,果然是两个了。(其实不用dump healp,debug也可以看出来,string1和string3中的char[]指向地址是不一样的)。

依此延伸,可以而知由java反序列化而来的那些string也是不一样的。实例如下;

**public** **final** **static** **void** main(String[] args) **throws** Exception {

    **new** StringDeserialized().testDescirialized();

}

**public** **void** testDescirialized() **throws** Exception {

    String testString = "HELLOHELLO";

    ObjectOutputStream dataOutStream = **new** ObjectOutputStream(**new** FileOutputStream("./stringdeserialized.data"));

    **for** (**int** i = 0; i &lt; 1000; i++)

        dataOutStream.writeObject(testString);

    dataOutStream.close();

    List&lt;String&gt; readAgainList = **new** ArrayList&lt;String&gt;(100);

    **for** (**int** i = 0; i &lt; 100; i++) {

        ObjectInputStream dataInputStream = **new** ObjectInputStream(**new** FileInputStream("./stringdeserialized.data"));

        readAgainList.add((String) dataInputStream.readObject());

        dataInputStream.close();

    }

    Thread._sleep_(Integer._MAX_VALUE_);

}

截图是heap dump出来的,有HELLOHELLO的个数有101个,占用的size>8080。对于JVM的内存使用可参考 http://www.javamex.com/tutorials/memory/object_memory_usage.shtml

问题来了,系统维护的数据大多是字符串信息,比如configserver,而很多的信息都是同一个字符串,那么反复的从网络序列化而来,占用多的Heap。当然自己可以写一个weak hashmap来维护,重用这些字符串。大家知道JVM中有String Pool,使用它无疑最好不过。查找String源码,发现intern()的注释如下:

* When the intern method is invoked, if the pool already contains a

 * string equal to this &lt;code&gt;String&lt;/code&gt; object as determined by

 * the {@link #equals(Object)} method, then the string from the pool is

 * returned. Otherwise, this &lt;code&gt;String&lt;/code&gt; object is added to the

 * pool and a reference to this &lt;code&gt;String&lt;/code&gt; object is returned.

于是改变上面一行代码为:

readAgainList.add(((String) dataInputStream.readObject()).intern());

再次Heap dump分析如下,另外可以看出一个包含10个字符的String占用的Heap是80byte:

  • 字符串序列化的速度
    目前CS处理为了支持所谓的任意类型数据,CS采用了一个技巧,用Swizzle来保存java序列化后的byte类型,Server端无需反序列化就能保存任意类型的data;这样的坏处有两个:通用的Java序列化效率不高;协议不通用,对其他语言支持不行。因为目前的数据信息基本都是String类型,而对对String数据的专门处理,可以通过String内部的byte数组(UTF-8)类表示,这样也便于其他语言解析。可以考虑增加对publish(String)的支持。于是做了如下测试来比较对String不同serialize/deserialize的速率和大小。

结果是writeUTF最小最快,对于100char的String,差距是数量级的相当明显,虽然Swizzle使用了一个技巧,当对同一个swizzle instance多次传输时,无需重复的序列化。

PS:Swizzle简单的说就是把信息包装起来,然后把序列化的byte流缓存起来,这样如果同样的一个信息要推送/发送N次,就无能减少N-1次的序列化时间。

public class CompareSerialization {

**public** String generateTestData(**int** stringLength) {

    Random random = **new** Random();

    StringBuilder builder = **new** StringBuilder(stringLength);

    **for** (**int** j = 0; j &lt; stringLength; j++) {

        builder.append((**char**) random.nextInt(127));

    }

    **return** builder.toString();

}

**public** **int** testJavaDefault(String data) **throws** Exception {

    ObjectOutputStream outputStream = **null**;

    ObjectInputStream inputStream = **null**;

    **try** {

        ByteArrayOutputStream byteArray = **new** ByteArrayOutputStream();

        outputStream = **new** ObjectOutputStream(byteArray);

        outputStream.writeObject(data);

        outputStream.flush();

        inputStream = **new** ObjectInputStream(**new** ByteArrayInputStream(byteArray.toByteArray()));

        inputStream.readObject();

        **return** byteArray.size();

    }

    **finally** {

        outputStream.close();

        inputStream.close();

    }

}

**public** **int** testJavaDefaultBytes(String data) **throws** Exception {

    ObjectOutputStream outputStream = **null**;

    ObjectInputStream inputStream = **null**;

    **try** {

        ByteArrayOutputStream byteArray = **new** ByteArrayOutputStream();

        outputStream = **new** ObjectOutputStream(byteArray);

        outputStream.writeBytes(data);

        outputStream.flush();

        inputStream = **new** ObjectInputStream(**new** ByteArrayInputStream(byteArray.toByteArray()));

        **byte**[] bytes = **new** **byte**[byteArray.size()];

        inputStream.read(**new** **byte**[byteArray.size()]);

        **new** String(bytes);

        **return** byteArray.size();

    }

    **finally** {

        outputStream.close();

        inputStream.close();

    }

}

**public** **int** testSwizzle(Swizzle data) **throws** Exception {

    ObjectOutputStream outputStream = **null**;

    ObjectInputStream inputStream = **null**;

    **try** {

        ByteArrayOutputStream byteArray = **new** ByteArrayOutputStream();

        outputStream = **new** ObjectOutputStream(byteArray);

        outputStream.writeObject(data);

        outputStream.flush();

        inputStream = **new** ObjectInputStream(**new** ByteArrayInputStream(byteArray.toByteArray()));

        inputStream.readObject();

        **return** byteArray.size();

    }

    **finally** {

        outputStream.close();

        inputStream.close();

    }

}

**public** **int** testStringUTF(String data) **throws** Exception {

    ObjectOutputStream outputStream = **null**;

    ObjectInputStream inputStream = **null**;

    **try** {

        ByteArrayOutputStream byteArray = **new** ByteArrayOutputStream();

        outputStream = **new** ObjectOutputStream(byteArray);

        outputStream.writeUTF(data);

        outputStream.flush();

        inputStream = **new** ObjectInputStream(**new** ByteArrayInputStream(byteArray.toByteArray()));

        inputStream.readUTF();

        **return** byteArray.size();

    }

    **finally** {

        outputStream.close();

        inputStream.close();

    }

}

**public** **final** **static** **void** main(String[] args) **throws** Exception {

    CompareSerialization compare = **new** CompareSerialization();

    String data = compare.generateTestData(Integer._parseInt_(args[0]));

    Swizzle swizzle = **new** Swizzle(data);

    System._out_.println("testJavaDefault size on networking:" + compare.testJavaDefault(data));

    System._out_.println("testJavaDefaultBytes size on networking:" + compare.testJavaDefaultBytes(data));

    System._out_.println("testStringUTF size on networking:" + compare.testStringUTF(data));

    System._out_.println("testSwizzle size on networking:" + compare.testSwizzle(swizzle));

    // warm up

    **for** (**int** i = 0; i &lt; 100; i++) {

        compare.testJavaDefault(data);

        compare.testJavaDefaultBytes(data);

        compare.testStringUTF(data);

        compare.testSwizzle(swizzle);

    }

    **long** startTime = System._currentTimeMillis_();

    **for** (**int** i = 0; i &lt; 10000; i++) {

        compare.testJavaDefault(data);

    }

    **long** endTime = System._currentTimeMillis_();

    System._out_.println("testJavaDefault using time:" + (endTime - startTime));

    startTime = System._currentTimeMillis_();

    **for** (**int** i = 0; i &lt; 10000; i++) {

        compare.testJavaDefaultBytes(data);

    }

    endTime = System._currentTimeMillis_();

    System._out_.println("testJavaDefaultBytes using time:" + (endTime - startTime));

    startTime = System._currentTimeMillis_();

    **for** (**int** i = 0; i &lt; 10000; i++) {

        compare.testStringUTF(data);

    }

    endTime = System._currentTimeMillis_();

    System._out_.println("testStringUTF using time:" + (endTime - startTime));

    startTime = System._currentTimeMillis_();

    **for** (**int** i = 0; i &lt; 10000; i++) {

        compare.testSwizzle(swizzle);

    }

    endTime = System._currentTimeMillis_();

    System._out_.println("testSwizzle using time:" + (endTime - startTime));

}

本文来源于"阿里中间件团队播客",原文发表时间"  2011-11-18"

时间: 2024-10-06 03:09:05

String的序列化小结的相关文章

Java中String.split()用法小结_java

在java.lang包中有String.split()方法,返回是一个数组 我在应用中用到一些,给大家总结一下,仅供大家参考: 1.如果用"."作为分隔的话,必须是如下写法,String.split("\\."),这样才能正确的分隔开,不能用String.split("."); 2.如果用"|"作为分隔的话,必须是如下写法,String.split("\\|"),这样才能正确的分隔开,不能用String.s

类 String详细用法小结

所有已实现的接口: Serializable, CharSequence, Comparable<String> public final class String extends Objectimplements Serializable, Comparable<String>, CharSequence String 类代表字符串.Java 程序中的所有字符串字面值(如 "abc" )都作为此类的实例实现. 字符串是常量:它们的值在创建之后不能更改.字符串缓

LUA string库使用小结_Lua

1. string库中所有的字符索引从前往后是1,2,...;从后往前是-1,-2,... 2. string库中所有的function都不会直接操作字符串,而是返回一个结果 复制代码 代码如下: s = "[abc]" string.len(s)        <==返回5 string.rep("abc", 2) <==返回"abcabc" string.lower("ABC") <==返回"a

JAVA中STRING的常用方法小结_java

一.创建并初始化一个字符串 String b = "hello"; 使用构造方法创建并初始化一个字符串 String();//初始化字符串,表示空字符序列 String(value);//利用已存在的字符串常量创建一个新的对象 String (char[] value);//利用一个字符数组创建一个字符串 String(char[] value,int offset,int count);//截取字符数组offset到count的字符创建一个非空串 String(StringBuffe

PowerShell String对象方法小结_PowerShell

从之前的章节中,我们知道PowerShell将一切存储在对象中,那这些对象中包含了一系列中的称之为方法的指令.默认文本存储在String对象中,它包含了许多非常有用的处理文本的命令.例如,要确定一个文件的扩展名,可以使用LastIndexOf()获取最后一个字符"."的位置,继续使用Substring()获取扩展名子串. PS> $path = "C:\prefs.js" PS> $path.Substring( $path.LastIndexOf(&q

ASP.NET中JSON的序列化和反序列化

导读:JSON是专门为浏览器中的网页上运行的JavaScript代码而设计的一种数据格式.在网站应用中使用JSON的场景越来越多,本文介绍 ASP.NET中JSON的序列化和反序列化,主要对JSON的简单介绍,ASP.NET如何序列化和反序列化的处理,在序列化和反序列化对日期时间.集合.字典的处理. 一.JSON简介 JSON(JavaScript Object Notation,JavaScript对象表示法)是一种轻量级的数据交换格式. JSON是"名值对"的集合.结构由大括号'{

JSON序列化与反序列化

以下是对JSON序列化与反序列化进行了详细的分析介绍,需要的朋友可以过来参考下   方法一:引入System.Web.Script.Serialization命名空间使用 JavaScriptSerializer类实现简单的序列化序列化类:Personnel 复制代码 代码如下:     public class Personnel         {             public int Id { get; set; }             public string Name {

asp.net JSON序列化与反序列化使用

  对JSON数据进行序列化和反序列化 可以使用DataContractJsonSerializer类将类型实例序列化为JSON字符串,并将JSON字符串反序列化为类型实例. DataContractJsonSerializer在System.Runtime.Serialization.Json命名空间下,.NET Framework 3.5包含在System.ServiceModel.Web.dll中,需要添加对其的引用;.NET Framework 4在System.Runtime.Seri

C#实现的json序列化和反序列化代码实例

  这篇文章主要介绍了C#实现的json序列化和反序列化代码实例,本文讲解了两种实现方法,并直接给出代码示例,需要的朋友可以参考下 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64