&#106avascript gb2312转utf-8

汉字标准交换码共分两级。第一级为常用字，有3755字，按汉语拼音字母顺序排列，第二级为次常用字，有3008字，按部首排列。GB2312的编码范围为2121H-777EH.

UNICODE 是两字节的全编码，对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符，还是汉字的高字节。如果发生数据损坏，某处内容破坏，则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符，最明显的好处是它简化了汉字的处理过程。

关于编码的文章可以参考：

百度的页面是gb2312的，URL编码自然也是从gb转换而来，比如“一”这个字，百度转换的结果是D2%BB，而从Utf-8转换来的结果是%E4%B8%80比如google（gb是2字节编码，utf-8是3字节变长编码）

可以用javascript的encodeURI和decodeURI来得到这些结果，设置页面编码就可以看到不同结果了。

在网上找，也没找到现成的转换程序，只得自己写。还好网上不缺gb-utf的对照表，修改了一下就可以用了:gb-utf.txt

这个对照表是将gb字节编码转到utf的16进制编码，而不是字节编码。

javascript中escape和unescape是转换16进制编码用的，因此gb汉字到utf汉字的转换思路是：encodeURI("gb汉字")，到对照表中查找utf的16进制编码，unescape("16进制utf编码")，得到utf汉字。

中间那一步最关键，我的转换只用到了这一步，其他两步直接调用那两个函数就可以了。下面是转换程序：

function genCodeStr(){
    var codeRE = new RegExp("'(.*)' : '(.*)'","gi");
    var tempStr,codeStr = "";
    var myReader = new Reader();
    myReader.loadFile('inc/gb2312_utf.txt');//这里改成你的对照表存放的路径
    while(!myReader.fStream.atEndofLine) {
        tempStr = new String(myReader.fStream.readLine());
        codeStr += tempStr.replace(codeRE,"$1") + ":" + tempStr.replace(codeRE,"$2") + ":";
    }
    Application("codeData") = codeStr;
}
function getCodeStr(){
    var codeStr = new String(Application("codeData"));
    if(codeStr.indexOf("%a1%a1") == -1){
        genCodeStr();
    }
    return new String(Application("codeData"));
}
function gb2utf(gbStr){
    var codeStr = getCodeStr();
    var codeRE = new RegExp("(%..%..)","gi");
    var replaceRE = new RegExp("(%..%..)","i");
    var gbCode;
    var utfCode;
    var gbStart;
    while((codeRE.lastIndex < gbStr.length) && replaceRE.test(gbStr)){
        codeRE.exec(gbStr);
        gbCode = new String(RegExp.$1);
        gbStart = new Number(codeStr.indexOf(gbCode.toLowerCase()));
        var utfStart = 0;
        if(gbStart != -1){
            utfStart= gbStart + 7;
            utfCode = codeStr.substring(utfStart,utfStart + 6);
        }else{
            utfCode = "%u3000";
        }
        gbStr = gbStr.replace(replaceRE,utfCode);
    }
    return gbStr;
}

function Reader() {                        //Class        Reader()
    this.fso;                            //Private    fso
    this.fUri;                            //Private    fUri
    this.fStream;                        //Private    fStream
    try{
        this.fso = new ActiveXObject("Scripting.FileSystemObject");
    }catch(exception) {
        throw exception;
    }
    this.loadFile = function(file) {        //Public        loadFile(file)
            this.fUri = Server.mappath(file);
            //var fStream = fso.CreateTextFile(tfolder,true,false);
            //fStream.WriteLine('test');
            if(this.fso.fileExists(this.fUri)){
                this.fStream = this.fso.openTextFile(this.fUri);
            }else{
                Response.write('file dos not exist');
            }
    }
    this.readLineN = function(num) {
        var i = 1;
        while(i < num && !this.fStream.atEndOfLine) {
            this.fStream.skipLine();
            i++
        }
        return this.fStream.readLine();
    }
    this.closeFile = function() {
        fStream.Close();
        fso.Close;
    }
}

对照表就是gb-utf.txt了，你自己改一下读取路径即可。
还需要注意的是，上面的程序是需要在服务器端运行的，因为涉及到文件操作。

时间： 2024-10-23 09:11:57

&#106avascript gb2312转utf-8的相关文章

ASP教程:gb2312和utf

今天做网站的时候,客户要一个博客,于是就利用了本博客所用的程序pjblog.经常做网站的人都知道,在同一个站点里使用不同编码的页面会产生乱码,比较常见的就是gb2312和Utf-8,比如我刚做的网站主站用的gb2312,博客用了utf-8,这样在访问时就出现乱码,以前给百货大楼的网站加一个调查问卷系统,就遇到了这个问题,当时捣鼓了很久才搞定.没想到今天又遇到这个,很欣慰,于是写篇日志记录一下这个方法.其实解决这个问题也很简单.只要在页面的最顶部加上以下代码就可以了. gb2312的页面加<%@L

gb2312和utf

今天做网站的时候,客户要一个博客,于是就利用了本博客所用的程序pjblog. 今天做网站的时候,客户要一个博客,于是就利用了本博客所用的程序pjblog.经常做网站的人都知道,在同一个站点里使用不同编码的页面会产生乱码,比较常见的就是gb2312和Utf-8,比如我刚做的网站主站用的gb2312,博客用了utf-8,这样在访问时就出现乱码,以前给百货大楼的网站加一个调查问卷系统,就遇到了这个问题,当时捣鼓了很久才搞定.没想到今天又遇到这个,很欣慰,于是写篇日志记录一下这个方法.其实解决这个问题也

c++中编译时出现乱码的原因可能有哪些啊？？

问题描述 c++中编译时出现乱码的原因可能有哪些啊?? 下面这个程序就是编译时没错误,运行乱码了,问题出在哪啊?求指导 #include #include using namespace std; class Triangle { public: void setABC(double x,double y,double z) { if(zx+y) cout<<"输入错误,请重新输入:"< cin>>x>>y>>z; } void g

asp代理采集的核心函数代码_小偷/采集

Function ProxyPage(url) Set Retrieval = CreateObject("MSXML2.ServerXMLHTTP.5.0") With Retrieval .SetProxy 2 , "255.0.0.0:80" '代理ip:代理端口 .Open "Get", url, False, "", "" .setRequestHeader "Referer"

javascript 将gb2312编码转utf-8编码

javascript|编码汉字标准交换码共分两级.第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列.GB2312的编码范围为2121H-777EH. UNICODE 是两字节的全编码,对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节.如果发生数据损坏, 某处内容破坏,则会引起其后汉字的混乱.UNICODE则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程. 关于编码的文章

用javascript实现gb2312转utf-8的脚本_javascript技巧

信息交换用汉字编码字符集-基本集汉字标准交换码共分两级.第一级为常用字,有3755字,按汉语拼音字母顺序排列,第二级为次常用字,有3008字,按部首排列.GB2312的编码范围为2121H-777EH. UNICODE 是两字节的全编码,对于ASCII字符它也使用两字节表示.代码页是通过高字节的取值范围来确定是ASCII字符,还是汉字的高字节.如果发生数据损坏, 某处内容破坏,则会引起其后汉字的混乱.UNICODE则一律使用两个字节表示一个字符,最明显的好处是它简化了汉字的处理过程. 关于编码

做网站用UTF-8还是GB2312？

经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, wordpress程序是用的UTF-8,很多cms用的是GB2312. ● 为什么有这么多编码? ● utf-8和GB2312有什么区别? ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好? 一.各种编码的来历可能很多同学一直对字符的各种编码方式懵懵懂懂,根本搞不清为什么他们有这么多编码 ==========================================

php 判断字符串编码是utf-8 或gb2312实例_php实例

php 判断字符串编码是utf-8 或gb2312 第一种方法: function is_gb2312($str) { for($i=0; $i<strlen($str); $i++) { $v = ord( $str[$i] ); if( $v > 127) { if( ($v >= 228) && ($v <= 233) ) { if( ($i+2) >= (strlen($str) - 1)) return true; // not enough cha

ANSI、UNICODE、UTF-8、GB2312、GBK、DBCS、UCS的区别和由来。

科普一下,自己也学习一下~~~~~ 一直对字符的各种编码方式懵懵懂懂,什么ANSI.UNICODE.UTF-8.GB2312.GBK.DBCS.UCS--是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们.Let's go! 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,

猜你喜欢

发明专利：一种适用于监控视频的编码方法

发明名称: 一种适用于监控视频的编码方法申请号: CN201510356968 申请日: 2015.06.25 公开(公告)号: CN104967855A 公开(公告)日: 2015.10.07 ...

放生软文让软文回归自然

最近因为绿萝2.0的发布,关于软文的讨论也非常的多,软文这条一直以来行之有效的网站推广方法似乎瞬间被堵死了,这也个推广,SEO界带来不小的地震,有不少专业人士甚至放言seo已经成为渣渣,站长还是老老实 ...

PHP+JS+rsa数据加密传输实现代码

JS端代码: 复制代码代码如下: //文件base64.js: var b64map="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwx ...

(ASP.NET)修改和删除DataGrid行——数据库访问

asp.net|datagrid|访问|数据|数据库 (ASP.NET)修改和删除DataGrid行--数据库访问本程序涉及到数据库的添加,修改和删除操作. 懒得写了,把界面贴出来,照着界面画就可以 ...

如何判断二叉树是否平衡

题目:输入一棵二叉树的根结点,判断该树是不是平衡二叉树.如果某二叉树中任意结点的左右子树的深度相差不超过1,那么它就是一棵平衡二叉树. 注:这里不考虑该二叉树是否是二叉排序树解决要点: 1.后序遍历 ...

利用Thunk让C++成员函数变回调函数

Windows API经常需要回调函数,而在C++开发中面向对象当行其道,若能让C++类的成员函数成为回调函数,简直就是大善!但是C++成员函数都隐含了一个this指针用于指向当前的对象.要实现回调确 ...

如何利用photoshop抠头发

在做图时我们经常会要用到抠图功能,对于一般的素材抠图是非常的简单,但对于头发他没有规则并且很慢很细,那么要如何把头发抠出来呢?下面我们来看看教程吧. 1.下面例子的图片是网上找的,如果你是学习也可 ...

PS教你创建青光内敛的金属3D字效

最终效果一.创建背景第1步:新建文件,大小:1260x 850像素,复制背景图层. 第2步:双击复制的背景图层,设置图层样式. 添加渐变叠加.勾选:仿色,混合模式:柔光,不透明度:85%,样式 ...

PS CS6制作飞溅的彩色液体文字技巧

液体字制作少不了一些水珠或液滴素材,制作之前需要下载一些相关的素材或笔刷.字体部分大致分为两大部分:第一部分是文字部分,用图层样式制作出纹理,然后用水珠素材增加水珠效果.第二部分是文字边缘的装饰,也是 ...

巧用注册表禁止U盘使用的妙招

巧用注册表来禁止U盘的步骤: 1.打开注册表编辑器regedit 2.定位至下列注册表项: HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServicesUSB ...

怎样关闭WIN7系统下移动硬盘的写保护功能

不少朋友在Win7上插入移动硬盘后,由于各种原因导致没有正常弹出移动硬盘,直接拔出的后果就是再次插入时无法复制或删除里面的文件,因为移动硬盘自动开启了写保护功能.如果你不知道怎样去除移动硬盘写保护功能 ...

汇编语言。急求。。。

问题描述汇编语言.急求... 设数据段定义如下:(6~8题均采用该数据段)DATA SEGMENTNA EQU 15NB EQU 10NC DB 2 DUP (42 DUP (52))CNT DB ...

jquery-为什么两个文本框都用onblur()检驵时,会进入死循环

问题描述为什么两个文本框都用onblur()检驵时,会进入死循环为什么两个文本框都用onblur()检驵时,会进入死循环.一定要用到onblur(),有什么方法不让它循环解决方案你代码都没有不 ...

c++-请问下面的代码怎么修改，请大神赐教~~

问题描述请问下面的代码怎么修改,请大神赐教~~ 目标:扑克牌的结构表示. 代码如下: enum suits{CLUBS,DIAMONDS,HEARTS,SPADES}; struct card { ...

pdo-[求助]关于PHP 链接 Mysql 底层对于IP 和 Hostname 的处理方式?

问题描述 [求助]关于PHP 链接 Mysql 底层对于IP 和 Hostname 的处理方式? 使用PHP5.5 PDO 分别用域名和 IP 链接mysql 数据库出现了性能差异. 找不到 ...

求助:一直说已停止工作

问题描述求助:一直说已停止工作题目:开始运行先提示用户输入彩球个数n(0<n≤81),然后随机选取颜色和位置填充棋盘,输出填充后的棋盘状态. 接下来,提示用户输入指定彩球的坐标(fx,fy ...

国内逾八成影视城亏损仅有5%能赚取微利

据业内人士透露,目前国内已建成的影视城80%亏损,15%收支持平,仅有5%能够赚取微利,然而,在国内众多地区的文化产业规划中,"影视城""影视基地"仍然被列为龙 ...

《测试驱动的嵌入式C语言开发》——3.1节具有可测性的C模块的那些元素

3.1 具有可测性的C模块的那些元素本书中的示例将采用模块这个概念.在我们的目的之下,模块就是系统中一个完备的部分,它有明确定义的接口.这个定义并没有讲一个模块有多大.在本书中,我们只会用很小的模块 ...

actionscript 3.0-actionScript 3.0影片剪辑元件加载

问题描述 actionScript 3.0影片剪辑元件加载直接上代码元件报错把文本框直接转化成了影片剪辑元件,也没再代码内定义,确实是有问题的,但这个应该怎么解决呢解决方案只给实例命名了, ...

&amp;#39;pDC&amp;#39; : missing storage-class or type specifiers 怎么解决初学MFC 谢谢各位帮忙

问题描述 'pDC' : missing storage-class or type specifiers 怎么解决初学MFC 谢谢各位帮忙 initialization // Ex_DrawVie ...

《iOS 6核心开发手册（第4版）》——2.9节处理选项开关和步进器

2.9 处理选项开关和步进器 iOS 6核心开发手册(第4版) UISwitch对象提供了一个简单的启用/禁用开关,允许用户选择一个布尔值(对于大多数非英语地区,选项开关国际化为1/0).选项开关对象 ...

新手求指导 VB.NET 如何在datagridview中添加timer列

问题描述新手求指导 VB.NET 如何在datagridview中添加timer列 datagridview的数据源是一个数据库我想实现:每当datagridview的数据更新了一行,就在那一行的 ...

情绪板携手视觉设计

一．视觉设计的现实困境互联网产品的视觉设计存在着很多不确定性,譬如: 你按照"典雅"去设计的,他却觉得是"清新"?--评判的主观性&看到图画才明白有 ...

关于这个手机滑动解锁效果为什么会限制不了，

问题描述关于这个手机滑动解锁效果为什么会限制不了, <!DOCTYPE html> <html lang="en"> <head> <m ...

APT攻击备忘

APT攻击(高级持续性威胁攻击,英文全称:Advanced Persistent Threat)是长期持续性网络攻击的形式,攻击者寻找漏洞构造专门的触发漏洞的代码,并专门开发针对受害者特定环境和防御体 ...

投资者一定要看！2015年投资机会解析

2014年下半年以来,A股市场的变化节奏之快,超出了很多人的预期.12月份大盘蓝筹股的急速上涨过程中,不少投资者感慨"满仓踏空"."熊市里辛苦赚到的钱,都在牛市中赔出去 ...

SKG生产移动电源的背后

SKG为什么要生产移动电源? 一说起SKG,或许大家都会想到"互联网家电第一品牌"这个概念.没错,SKG的出现,将"互联网家电"这个概念植入到了传统家电行业,这 ...

redis持久化问题，修改dump快照配置文件不产生预期效果

问题描述 redis持久化问题,修改dump快照配置文件不产生预期效果 redis修改了配置文件rdb存放位置, 用redis-benchmark执行10000次命令,为啥在指定路径下不生成dump. ...

搜狐节外生枝难阻今日头条与传统媒体加速融合

这一个多月来,新闻资讯app今日头条可谓是不断"上头条",先是C轮融资1亿美元.估值5亿美元,然后是以新京报为代表的传统媒体的口诛笔伐,再是与广州日报等一批媒体的和解;再到如今的搜 ...

对控件使用不熟-关于swing布局，控件使用的问题

问题描述关于swing布局,控件使用的问题求大神帮我讲解下,应该怎么使使用swing做出这样的界面.

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.028 s.