编码URLEncoder和解码URLDecoder的UTF-8到GBK的转码

编码URLEncoder和解码URLDecoder的UTF-8到GBK的转码(java类中解码):
package com.kk;

import java.io.UnsupportedEncodingException;
import java.net.URLDecoder;
import java.net.URLEncoder;

public class Charencoding {

	public static void main(String[] args){
		String s = "CSS测试";
		try {
			//css or js post/get data submmit
			s = URLEncoder.encode(s, "UTF-8");
			System.out.println("encode :"+s);
			//backstage java/jsp dispose
			s = URLDecoder.decode(s, "UTF-8");
			System.out.println("decode :"+s);
			s = new String(s.getBytes(),"GBK");
			System.out.println("GBK :" +s);
			//combine encoding change
		//	s = new String(URLDecoder.decode(s, "UTF-8").getBytes(),"GBK");
		} catch (UnsupportedEncodingException e) {
			System.out.println("encoding cause,change failure");
		}catch (Exception e) {
			System.out.println("others cause,change failure");
		}
	}
}

JavaScript/js中,有三个可以对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decodeURIComponent

escape()函数

定义和用法 :escape() 函数可对字符串进行编码,这样就可以在所有的计算机上读取该字符串。

语法 :escape(string)

参数  描述  :string  必需。要被转义或编码的字符串。 

返回值 :已编码的 string 的副本。其中某些字符被替换成了十六进制的转义序列。

说明 :1.该方法不会对 ASCII 字母和数字进行编码,也不会对下面这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( )

            2.escape不编码字符有69个:*,+,-,.,/,@,_,0-9,a-z,A-Z。

            3.其他所有的字符都会被转义序列替换。

encodeURI()函数

定义和用法 :encodeURI() 函数可把字符串作为 URI 进行编码。

语法 :encodeURI(URIstring)

参数  描述  :URIstring  必需。一个字符串,含有 URI 或其他要编码的文本。 

返回值 :URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。

说明 :该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。

            该方法的目的是对 URI 进行完整的编码,因此对以下在 URI 中具有特殊含义的 ASCII 标点符号,encodeURI() 函数是不会进行转义的:;/?:@&=+$,#

            encodeURI不编码字符有82个:!,#,$,&,',(,),*,+,,,-,.,/,:,;,=,?,@,_,~,0-9,a-z,A-Z

encodeURIComponent() 函数

定义和用法 :encodeURIComponent() 函数可把字符串作为 URI 组件进行编码。

语法 :encodeURIComponent(URIstring)

参数  描述  :URIstring  必需。一个字符串,含有 URI 组件或其他要编码的文本。 

返回值 :URIstring 的副本,其中的某些字符将被十六进制的转义序列进行替换。

说明 :该方法不会对 ASCII 字母和数字进行编码,也不会对这些 ASCII 标点符号进行编码: - _ . ! ~ * ' ( ) 。

           其他字符(比如 :;/?:@&=+$,# 这些用于分隔 URI 组件的标点符号),都是由一个或多个十六进制的转义序列替换的。

           encodeURIComponent不编码字符有71个:!, ',(,),*,-,.,_,~,0-9,a-z,A-Z
   

注:escape对0-255以外的unicode值进行编码时输出%u****格式,其它情况下escape,encodeURI,encodeURIComponent编码结果相同

提示:请注意 encodeURIComponent() 函数 与 encodeURI() 函数的区别之处,前者假定它的参数是 URI 的一部分(比如协议、主机名、路径或查询字符串)。

           因此 ,encodeURIComponent() 函数将转义用于分隔 URI 各个部分的标点符号。

这三个函数,escape()除了 ASCII 字母、数字和特定的符号外,对传进来的字符串全部进行转义编码,因此如果想对URL编码,最好不要使用此方法。

                     encodeURI() 用于编码整个URI,因为URI中的合法字符都不会被编码转换。

                     encodeURIComponent方法在编码单个URIComponent(指请求参数)应当是最常用的,它可以讲参数中的中文、特殊字符进行转义,而不会影响整个URL。

最常用的应为encodeURIComponent,它是将中文、韩文等特殊字符转换成utf-8格式的url编码,所以如果给后台传递参数需要使用encodeURIComponent时需要后台解码对utf-8支持(form中的编码方式和当前页面编码方式相同)

 

GBK:全名为汉字内码扩展规范,英文名Chinese Internal Code Specification,是GB2312的扩充,仍然用两个字节表示汉字。采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除 xx7F一条线。总计23940 个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。

UTF-8:(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。

UTF-8和GBK,字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。
所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大。

待续!

字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。
所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大
字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。

至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。

GBK包含全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。

GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准)
UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。
比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。 所以,对于英文比较多的论坛 ,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。

UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛,GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8(8-bit Unicode
Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。UTF-8(8-bit
Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。

 

 

 

时间: 2024-10-31 14:35:06

编码URLEncoder和解码URLDecoder的UTF-8到GBK的转码的相关文章

js对图片base64编码字符串进行解码并输出图像

 这篇文章主要介绍了js对图片base64编码字符串进行解码并输出图像的具体实现,大家可以参考下面的示例  代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">  <html xmlns="http://www.w3.org/1999/xh

请教百度搜索关键词的编码方式和解码方式

问题描述 请教百度搜索关键词的编码方式和解码方式 比如下面的百度搜索页面地址http://m.baidu.com/s?tn=zbios&pu=sz%401320_480%2Ccuid%40504E73B9ED15B686C2F741B0F64B6AD4D9B2E8729FGKQMOLKRM%2Ccua%40640_1136_iphone_6.2.1.0_0%2Ccut%40iPhone6%252C1_8.1.2%2Cosname%40baiduboxapp%2Cctv%401%2Ccfrom%4

ios-iOS 视频开发硬编码和硬解码

问题描述 iOS 视频开发硬编码和硬解码 最近在做视频的硬编码和硬解码.就像是视频通话,有经验的朋友请指教一下.本人绝对知恩图报,懂味的谢谢 解决方案 参考这几个资源http://download.csdn.net/detail/linux_vae/9283241http://download.csdn.net/detail/hulianchuangcai/9316961http://download.csdn.net/download/dongdongzh/9004185 解决方案二: htt

在C#如何将一个四个字节的byte[]转换为两个字节的byte[],用bcd编码实现,解码又如何实现

问题描述 在C#如何将一个四个字节的byte[]转换为两个字节的byte[],用bcd编码实现,解码又如何实现 跪求,大神们解答,.......急求 现在做8583,在C#如何将一个四个字节的byte[]转换为两个字节的byte[],用bcd编码实现,解码又如何实现 解决方案 大神们跪求啊.................. 解决方案二: byte占用一个字节, byte[] b= new byte[] { 0,1,2,3}这个数组有4个字节 要把四个字节转成两个字节这样会造成数据丢失,就变成这

php ENCODE编码,DECODE解码

/**  * @ string $str 要编码的字符串  * @ string $ende 操作ENCODE编码,DECODE解码  * @ string $key hash值  * @return string  */ function code($str, $ende, $key = '') {  $coded = '';  $keylength = strlen($key);  $str = $ende == 'DECODE' ? base64_decode($str) : $str;

js对图片base64编码字符串进行解码并输出图像示例_javascript技巧

复制代码 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv=&qu

编码-FFMPEG实时解码RTP传输的H264流视频花屏

问题描述 FFMPEG实时解码RTP传输的H264流视频花屏 自己用QT写的程序,在PC上采集视频编码RTP打包发送.如果发送给自己,然后用VLC播放的话是可以正常显示的(尽管延迟会不断增大,这个问题再待解决),但是用自己编的软件确无法正常显示,能看到一瞬间有部分画面正常,然后一会画面就糊掉了. 同样的代码, 我在树莓派上,用OPENMAX硬件加速编码,然后同样的打包方式发送,发送给树莓派自己或者给PC,都能正常地显示. 不知道这个是哪部分出了原因?到底是FFMPEG编码部分出问题,还是接收的代

asp页面和Asp.net页面传中文参数UrlEncode编码以及接收解码_实用技巧

举例:asp.net用Get方式传输的URL为:"WebPage.asp?str="+HttpUtility.UrlEncode(str) ,解码方式为HttpUtility.UrlDecode(Request.QueryString["str"].ToString().Trim()) asp的Get方式传送为"webPage.aspx?str="+server.urlencode(str) 两种编码不统一 解决方案:在asp使用Get方式传送&

escape编码与unescape解码汉字出现乱码的解决方法_javascript技巧

今天的项目中遇到需要用javascript的escape编码汉字再用unescape解码的情况,测试代码段的时候出现了乱码的情况. 具体情况如下: 首先,用EditPlus打开测试页面test.html,编辑如下html代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd&quo