Java编码浅析(注意区分三个概念)(转)

编码:

(1)外部资源的字符集-----没有读入jvm中的数据都是外部资源

(2)jvm中数据的字符集-----都是unicode

(1)和(2)之间发生交互时,如果不指定编码,则使用JVM平台默认字符集

 

 

Java与Unicode:

 

Java的class文件采用utf8的编码方式,JVM运行时采用utf16。

 

Java的字符串是unicode编码的。

 

总之,Java采用了unicode字符集,使之易于国际化。

 

Java支持哪些字符集:

 

即Java能识别哪些字符集并对它进行正确地处理?

 

查看Charset 类,最新的JDK支持160种字符集。可以通过static方法availableCharsets拿到所有Java支持的字符集。

 

Java代码  

  1. assertEquals(160, Charset.availableCharsets().size());  
  2.   
  3. Set<String> charsetNames = Charset.availableCharsets().keySet();  
  4.   
  5. assertTrue(charsetNames.contains("utf-8"));  
  6. assertTrue(charsetNames.contains("utf-16"));  
  7. assertTrue(charsetNames.contains("gb2312"));  
  8.   
  9. assertTrue(Charset.isSupported("utf-8"));  

 

需要在哪些时候注意编码问题?

 

1. 从外部资源读取数据:

 

这跟外部资源采取的编码方式有关,我们需要使用外部资源采用的字符集来读取外部数据:

 

Java代码  

  1. InputStream is = new FileInputStream("res/input2.data");  
  2. InputStreamReader streamReader = new InputStreamReader(is, "GB18030");  

 

这里可以看到,我们采用了GB18030编码读取外部数据,通过查看streamReader的encoding可以印证:

 

Java代码  

  1. assertEquals("GB18030", streamReader.getEncoding());  

 

正是由于上面我们为外部资源指定了正确的编码,当它转成char数组时才能正确地进行解码(GB18030 -> unicode):

 

Java代码  

  1. char[] chars = new char[is.available()];  
  2. streamReader.read(chars, 0, is.available());  

 

但我们经常写的代码就像下面这样:

 

Java代码  

  1. InputStream is = new FileInputStream("res/input2.data");  
  2. InputStreamReader streamReader = new InputStreamReader(is);  

 

这时候InputStreamReader采用什么编码方式读取外部资源呢?Unicode?不是,这时候采用的编码方式是JVM的默认字符集,这个默认字符集在虚拟机启动时决定,通常根据语言环境和底层操作系统的 charset 来确定。可以通过以下方式得到JVM的默认字符集:

 

Java代码  

  1. Charset.defaultCharset();  

 

为什么要这样?因为我们从外部资源读取数据,而外部资源的编码方式通常跟操作系统所使用的字符集一样,所以采用这种默认方式是可以理解的。

 

好吧,那么我通过我的IDE Ideas创建了一个文件,并以JVM默认的编码方式从这个文件读取数据,但读出来的数据竟然是乱码。为何?呵呵,其实是因为通过Ideas创建的文件是以utf-8编码的。要得到一个JVM默认编码的文件,通过手工创建一个txt文件试试吧。

 

2. 字符串和字节数组的相互转换

 

我们通常通过以下代码把字符串转换成字节数组:

 

Java代码  

  1. "string".getBytes();  

 

但你是否注意过这个转换采用的编码呢?其实上面这句代码跟下面这句是等价的:

 

Java代码  

  1. "string".getBytes(Charset.defaultCharset());  

也就是说它根据JVM的默认编码(而不是你可能以为的unicode)把字符串转换成一个字节数组。

反之,如何从字节数组创建一个字符串呢?

Java代码  

  1. new String("string".getBytes());  

同样,这个方法使用平台的默认字符集解码字节的指定数组(这里的解码指从一种字符集到unicode)。

字符串编码迷思:

Java代码  

  1. new String(input.getBytes("ISO-8859-1"), "GB18030")  

上面这段代码代表什么?有人会说: “把input字符串从ISO-8859-1编码方式转换成GB18030编码方式”。如果这种说法正确,那么又如何解释我们刚提到的java字符串都采用unicode编码呢?

这种说法不仅是欠妥的,而且是大错特错的,让我们一一来分析,其实事实是这样的:我们本应该用GB18030的编码来读取数据并解码成字符串,但结果却采用了ISO-8859-1的编码,导致生成一个错误的字符串。要恢复,就要先把字符串恢复成原始字节数组,然后通过正确的编码GB18030再次解码成字符串(即把以GB18030编码的数据转成unicode的字符串)。注意,字符串永远都是unicode编码的。 

但编码转换并不是负负得正那么简单,这里我们之所以可以正确地转换回来,是因为 ISO8859-1 是单字节编码,所以每个字节被按照原样 转换为 String ,也就是说,虽然这是一个错误的转换,但编码没有改变,所以我们仍然有机会把编码转换回来!

总结:

所以,我们在处理java的编码问题时,要分清楚三个概念:Java采用的编码:unicode,JVM平台默认字符集和外部资源的编码。

http://www.iteye.com/topic/311583

 

时间: 2024-10-02 17:36:37

Java编码浅析(注意区分三个概念)(转)的相关文章

Java解析网络数据流的三种特殊方法

Java作为最开放的语言,已越来越受到网络程序员的青睐.但这一青睐族有着同样的经历--曾经都为网络上通信的Java数据格式而烦脑. 笔者也不例外,曾经为此而查阅了很多文档,经过反复测试才 得以解决,如今笔者已经在所从事的很多电子政务项目中顺利的应用.今天笔者写此文,介绍用Java解析网络数据的三种特殊方法,希望对正在寻求这方面问题答案的读者有所帮助. UTF8转换成GB2312 当我们在基于HTTP协议的JSP或Servlet的应用中获取数据或发送请求时,JVM会把输送的数据编码成UTF8格式.

Java正则表达式中的捕获组的概念及相关API使用

要弄清这三个方法,首先要弄清Java正则表达式中的捕获组的概念.捕获组也就是Pattern中以括号对"()"分割出的子Pattern.至于为什么要用捕获组呢,主要是为了能找出在一次匹配中你更关心的部分.捕获组可以通过从左到右计算其开括号来编号.例如,在表达式 "(x)(y\\w*)(z)" 中,存在三个这样的组:  1.  x2.  y\\w*3.  z组零始终代表整个表达式.之所以这样命名捕获组是因为在匹配中,保存了与这些组匹配的输入序列的每个子序列.捕获的子序列

Java内存模型FAQ(三)JSR133是什么?

原文:http://www.cs.umd.edu/~pugh/java/memoryModel/jsr-133-faq.html 第三章 译者:Alex 从1997年以来,人们不断发现Java语言规范的17章定义的Java内存模型中的一些严重的缺陷.这些缺陷会导致一些使人迷惑的行为(例如final字段会被观察到值的改变)和破坏编译器常见的优化能力. Java内存模型是一个雄心勃勃的计划,它是编程语言规范第一次尝试合并一个能够在各种处理器架构中为并发提供一致语义的内存模型.不过,定义一个既一致又直

Java前端Java编码语法运用

问题描述 Java前端Java编码语法运用 我刚入这行不久,小学生一枚,现在有个Java的问题如下:http://zhidao.baidu.com/question/1242054694549391659.html我挂在百度问答上了,会的大神们可以大体上先看一下,我的问题主要一个是:1.那个用js写的大致方法能否解决我的问题(我自己看了下,大致解决思路是没错的的)2.能解决的话能否帮我转成Java代码形式,用Java语法写个Demo?因为我对Java只是处于初级阶段,很多语法的使用和运用都不知道

java中文乱码解决之道(四)—–java编码转换过程

java编码转换过程 我们总是用一个java类文件和用户进行最直接的交互(输入.输出),这些交互内容包含的文字可能会包含中文.无论这些java类是与数据库交互,还是与前端页面交互,他们的生命周期总是这样的: 1.程序员在操作系统上通过编辑器编写程序代码并且以.java的格式保存操作系统中,这些文件我们称之为源文件. 2.通过JDK中的javac.exe编译这些源文件形成.class类. 3.直接运行这些类或者部署在WEB容器中运行,得到输出结果. 这些过程是从宏观上面来观察的,了解这个肯定是不行

java-求大神指教关于 Java 编码过程的详细描述。

问题描述 求大神指教关于 Java 编码过程的详细描述. 编码问题一直困扰我.以 Java 为例: 大家都知道 Java 的原始字符集是两字节的 Unicode,那么在写程序时,如果系统默认字符集是 GBK 那么在编译和解释该程序时,系统到底针对编码做了哪些事情,求大神指教. 解决方案 你用的汉字对应的是可以处理汉字的编码集的,比如GBK,你在网上搜一下,每个汉字在编码集中是以数字来代替这个字的,而当计算机处理时会将这个数字转换成 一串01到计算机中,当计算机接到这串01后它就知道了你这个数字是

Java编码及网络传输中的编码问题

Java编码及网络传输中的编码问题 近来试着FTP搜索,遇到编码问题,研究了下. Java内部的String为Unicode编码,每个字符占两个字节. Java编解码方法如下: String str = "hi好啊me";   byte[] gbkBytes=str.getBytes("GBK");//将String的Unicode编码转为GBK编码,输出到字节中  String string=new String(gbkBytes,"GBK")

Java编码问题解决方案大揭密

本文为原创如需转载请注明作者和出处谢谢 一.Java编码是怎么回事 对于使用中文以及其他非拉丁语系语言的开发人员来说经常会遇到字符集编码问题.对于Java语言来说在其内部使用的是UCS2编码2个字节的Unicode编码.这种编码并不属于某个语系的语言编码它实际上是一种编码格式的世界语.在这个世界上所有可以在计算机中使用的语言都有对应的UCS2编码. 正是因为Java采用了UCS2因此在Java中可以使用世界上任何国家的语言来为变量名.方法名.类起名如下面代码如下 class 中国 {     p

浅析如何区分网站基础权重的层次级别

做网站优化的办法良多套路也很普遍,平时大家讨论提出的都是一些很习以为常的办法,真的要做到最好那就要靠自身去操纵网站的均衡中点,做到打破SEO行业的传统局限性.万丈高楼平地起,做网站优化行当的人水准都差不多,都是一步一步印着足迹走过来的;关于我们来说查找引擎还算是公道的,由于网站上线之后都邑享用相同级其余待遇,也毫不避忌的说网站春秋也是权重凹凸的显示之一,那也只能怪本人迟投胎了几年罢了,有这闲工夫怨天载道的还不如去追求若何出类拔萃的办法;与此还多去总结多去进修,在网站排名路途上走的更高.下面简略分