《Java安全编码标准》一2.13 IDS12-J在不同的字符编码中无损转换字符串数据

2.13 IDS12-J在不同的字符编码中无损转换字符串数据

在String对象之间进行转换时,如果涉及不同的编码类型,可能会导致数据丢失。
根据Java API[API 2006] 对?String.getBytes(Charset)方法的描述:
该方法总会替代那些错误格式的输入和不可映射的字符序列,把它们替换成这些字符的字节数组。
当必须将一个String转化为字节数组时,例如写入一个文件,并且在这个字符串中含有不可映射的字符序列的时候,就必须进行正确的字符编码。

2.13.1 不符合规则的代码示例

当String包含那些指定在charset中不能正常表示的字符时,这个不符合规则的代码示例[Hornig 2007]会破坏数据。

// Corrupts data on errors
public static byte[] toCodePage_bad(String charset, String string)
??throws UnsupportedEncodingException {
??return string.getBytes(charset);
}

// Fails to detect corrupt data
public static String fromCodePage_bad(String charset, byte[] bytes)
??throws UnsupportedEncodingException {
??return new String(bytes, charset);
}

2.13.2 符合规则的方案

java.nio.charset.CharsetEncoder类可以将一个16位的Unicode字符转换为指定Charset的一组字节数据。java.nio.charset.Character-Decoder用来完成相反的过程[API 2006]。具体的详情可以参考规则FIO11-J。
这个方案[Hornig 2007]使用了CharsetEncoder?和?CharsetDecoder两个类来处理编码转换问题。

public static byte[] toCodePage_good(String charset, String string)
??throws IOException {
??
??Charset cs = Charset.forName(charset);
??CharsetEncoder coder = cs.newEncoder();
??ByteBuffer bytebuf = coder.encode(CharBuffer.wrap(string));
??byte[] bytes = new byte[bytebuf.limit()];
??bytebuf.get(bytes);
??return bytes;
}

public static String fromCodePage_good(String charset,byte[] bytes)
??throws CharacterCodingException {
??
??Charset cs = Charset.forName(charset);
??CharsetDecoder coder = cs.newDecoder();
??CharBuffer charbuf = coder.decode(ByteBuffer.wrap(bytes));
??return charbuf.toString();
}

2.13.3 不符合规则的代码示例

这个代码示例[Hornig 2007]想要将一个字符串以特殊的编码方式附加到一个文本文件上,但这样会导致错误,因为String中可能包含无法正确表示的字符。

// Corrupts data on errors
public static void toFile_bad(String charset, String filename,
??????????????????????????????String string) throws IOException {
??
??FileOutputStream stream = new FileOutputStream(filename, true);
??OutputStreamWriter writer = new OutputStreamWriter(stream, charset);
??writer.write(string, 0, string.length());
??writer.close();
}

2.13.4 符合规则的方案

这个方案[Hornig 2007]使用CharsetEncoder?类来完成所需要的功能。

public static void toFile_good(String filename, String string,
??????????????????????????????????????String charset) throws IOException {
??
??Charset cs = Charset.forName(charset);
??CharsetEncoder coder = cs.newEncoder();
??FileOutputStream stream = new FileOutputStream(filename, true);
??OutputStreamWriter writer = new OutputStreamWriter(stream, coder);
??writer.write(string, 0, string.length());
??writer.close();
}

可以使用FileInputStream?和InputStreamReader对象来从文件中读取数据。这个InputStreamReader对象接受可选的CharsetDecoder作为参数,但这个参数必须和前面写入文件时保持一致。

2.13.5 风险评估

使用非标准化的方法来处理和字符集转换相关的问题,通常会导致数据丢失。

2.13.6 相关规范

2.13.7 参考书目

时间: 2024-08-30 19:43:01

《Java安全编码标准》一2.13 IDS12-J在不同的字符编码中无损转换字符串数据的相关文章

《Java安全编码标准》一2.9 IDS08-J净化传递给正则表达式的非受信数据

2.9 IDS08-J净化传递给正则表达式的非受信数据 正则表达式在匹配文本字符串时被广泛使用.比如,在POSIX中,grep命令就支持正则表达式,使用它可以在指定文本中搜索模式.如果要了解正则表达式的基本情况,请参考Java教程[Tutorials 08].java.util.regex包提供了Pattern?类,这个类封装了一个编译过的正则表达式和一个Matcher类,通过Matcher类这个引擎,可以使用Pattern?在CharSequence中进行匹配操作.在Java中,必须注意不能误

《Java安全编码标准》一导读

前 言 在Java编程语言中,关键的安全编码要素是采用良好的文档和强制的编码规范.本书提供了在Java语言中的一系列安全编码规则.这些规则的目标是消除不安全的编码实践,因为这些不安全的因素会导致可利用的漏洞.如果应用这些安全编码标准,可以帮助设计出安全的.可靠的.健壮的.有弹性的.可用性和可维护性高的高质量系统,并且这些安全编码规范还可作为评估源代码质量特性的一个指标(不管使用的是手动的还是自动化的过程).对于使用Java编程语言开发的软件系统,这个编码规范具有广泛的影响. 目 录 第1章 概述

计算机字符编码详解与汇总

前言        计算机中的数据是以二进制格式表示的(其中8位二进制称为一个字节,比如00100101就是一个字节.通常为了更方便的表示二进制数据,也可以转换成16进制表示出来,比如00100101就可以用0x25来表示).把所有字符转换成二进制数据的规则就是字符编码.字符编码的方式很多,本文对每一种字符编码做尽可能详细的讲解.        本文中红色字体或加粗字体是需要重点理解或者记忆的. 1. ASCII码        ASCII是美国国家标准定制的一套基于拉丁字母的电脑编码系统,可表

关于字符编码,你所需要知道的

字符编码的问题看似很小,经常被技术人员忽视,但是很容易导致一些莫名其妙的问题.这里总结了一下字符编码的一些普及性的知识,希望对大家有所帮助. 还是得从ASCII码说起   说到字符编码,不得不说ASCII码的简史.计算机一开始发明的时候是用来解决数字计算的问题,后来人们发现,计算机还可以做更多的事,例如文本处理.但由于计算机只识"数",因此人们必须告诉计算机哪个数字来代表哪个特定字符,例如65代表字母'A',66代表字母'B',以此类推.但是计算机之间字符-数字的对应关系必须得一致,否

JavaScript Unicode 字符编码详解教程

Unicode 是为了解决传统的字符编码方案的局限而产生的,例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况.很多传统的编码方式都有一个共同的问题,即容许电脑处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况). 一.Unicode是什么? Unicode源于一个很简单的想法:将全世界所有的字符包含在一个集合里,计算机只要支持这一个字符集,就能显示所有的字符,再也不会有乱码了. 它从0开始

DedeCMS中用到的字符编码转换1

PHP自带的iconv和mbstring库都可以完成这项工作,但一般的虚拟主机很少支持 其中的全局变量在include/common.inc.php 库文件在include/data下 Java代码   <?php  if(!defined('DEDEINC')) exit('dedecms');   /**   * DedeCMS中用到的字符编码转换的小助手函数   *   * @version        $Id: charset.helper.php 1 2010-07-05 11:43

再谈Python中的字符串与字符编码(推荐)_python

本节内容: 1.前言 2.相关概念 3.Python中的默认编码 4.Python2与Python3中对字符串的支持 5.字符编码转换 一.前言 Python中的字符编码是个老生常谈的话题,同行们都写过很多这方面的文章.有的人云亦云,也有的写得很深入.近日看到某知名培训机构的教学视频中再次谈及此问题,讲解的还是不尽人意,所以才想写这篇文字.一方面,梳理一下相关知识,另一方面,希望给其他人些许帮助. Python2的 默认编码 是ASCII,不能识别中文字符,需要显式指定字符编码:Python3的

字符编码的相关知识联想到本地二进制代码困惑

问题描述 最近在看字符编码的相关知识,又联想到二进制代码的知识,由于本人不是科班出身,对一些二进制代码即本地代码了解不深,所以有几个问题感到很困惑,所以希望懂相关知识的人帮我顺一顺.VS默认是将文本本件(包括cs文件)以utf-8编码方案编码成字节的,举个例子我们AaBb经过utf-8编码后是E6 88 91 E4 BB AC 41 61 42 62E6 88 91(代表我) E4 BB AC(代表们) 41(A) 61(a) 42(B) 62(b)第一个问题:我是不是可以认为将这些16进制转换

《Java安全编码标准》一1.11 小结

1.11 小结 尽管作为一种相对安全的语言,Java语言及其类库还是在很大程度上存在着一些编程问题,从而造成系统安全漏洞.如果假设Java本身提供的功能特性可以减少一般的软件问题,并足够Java程序安全得不需要进行进一步检测,那么我们就大错特错了.因为任何在软件实现中出现的缺陷都会产生严重的安全影响,绷紧安全性这根弦是非常关键的,这样,当我们进行系统开发和部署时,就可以避免出现软件的安全漏洞问题.为了减少因为编程错误所带来的安全漏洞的可能性,Java开发人员应当遵循本编码标准中的安全编码规则,并