彻底解决页面文字编码乱码问题_相关技巧

本文提供一种方法,通过将字符串编码成Unicode格式,保证数据在展示和传输过程中万无一失。无论客户端浏览器如何改变编码,页面上的编码都不会乱码。
对于HTML/XML,采用 + 十位Unicode码 + ; 的形式格式化字符。
对于JS,采用 \u + 4位Unicode码 来格式化字符串.
示例采用C#编写,使用了 中文、俄文、韩文、日文 来展示。对于PHP,文章末尾将会提到。
首先,有一个String的扩展类。

复制代码 代码如下:

using System.Text.RegularExpressions;
namespace XXOO
{
/// <summary>
/// 扩展方法,提供Html编码 和 脚本编码
/// </summary>
public static class StringExtension
{
private static string GetHtmlEncodedStr(Match m)
{
string x = m.ToString();
return string.Format("{0};", (int)x[0]);
}
/// <summary>
/// 将字符串转换为HTML编码格式
/// </summary>
/// <param name="text">字符串</param>
/// <returns>输出形如:中文丰厚警</returns>
public static string HtmlEncode( this string text )
{
return Regex.Replace(text
, "([^\\000-\\127]|&|\\\"|\\<|\\>|')"
, new MatchEvaluator(GetHtmlEncodedStr)
, RegexOptions.ECMAScript | RegexOptions.Compiled
);
}
private static string GetScriptEncodedStr(Match m)
{
string x = m.ToString();
return "\\u" + string.Format("{0:X}", (int)x[0]).PadLeft( 4, '0');
}
/// <summary>
/// 将字符串编码成Unicode格式 如:\uXXXX
/// </summary>
/// <param name="text">字符串</param>
/// <returns>输出形如:\u4E2D\u6587\u4E30\u539A\u8B66\u65B9</returns>
public static string ScriptEncode( this string text )
{
return Regex.Replace(text
, "([^\\000-\\127]|&|\\\"|'|\\<|\\>|\\n|\\r|\\t)"
, new MatchEvaluator(GetScriptEncodedStr)
, RegexOptions.ECMAScript | RegexOptions.Compiled
);
}
}
}

它提供了2个方法,给测试页面使用。
测试页面(ASP.Net)

复制代码 代码如下:

<%@ Page Language="C#" AutoEventWireup="true" CodeBehind="WebForm1.aspx.cs" Inherits="WebApplication1.WebForm1" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">
<title></title>
</head>
<body>
<form id="form1" runat="server">
<pre runat="Server" id="pre"></pre>
<asp:PlaceHolder runat="Server" ID="placeHolder"></asp:PlaceHolder>
</form>
</body>
</html>

测试页面代码:

复制代码 代码如下:

using XXOO;
namespace WebApplication1
{
public partial class WebForm1 : System.Web.UI.Page
{
protected void Page_Load(object sender, EventArgs e)
{
var str = @"中文丰厚警方过后发达看见发的话该快发动机后购房贷款好
Китайское посольство в Ираке и Багдаде отделение
이라크에서 중국 대사관과 알의 바그다드 지사 - 만수르 호텔
イラクでの大使館やアルのバグダッド支局-マンスールホテル
1234567890!@#$%^&*()<>""'\|}{][:;
";
pre.InnerHtml = str.HtmlEncode();
HtmlGenericControl control = new HtmlGenericControl("script");
control.Attributes["language"] = "javascript";
control.Attributes["type"] = "text/javascript";
control.InnerHtml = string.Format("alert(\"{0}\");", str.ScriptEncode());
placeHolder.Controls.Add(control);
}
}
}

运行后得到的HTML:

复制代码 代码如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" >
<head><title>
</title></head>
<body>
<form name="form1" method="post" action="WebForm1.aspx" id="form1">
<pre id="pre">中文丰厚警方过后发达看见发的话该快发动机后购房贷款好
Китайское посольство в Ираке и Багдаде отделение
이라크에서 중국 대사관과 알의 바그다드 지사 - 만수르 호텔
イラクでの大使館やアルのバグダッド支局-マンスールホテル
1234567890!@#$%^&*()<>"'\|}{][:;
</pre>
<script language="javascript" type="text/javascript"><!--
alert("\u4E2D\u6587\u4E30\u539A\u8B66\u65B9\u8FC7\u540E\u53D1\u8FBE\u770B\u89C1\u53D1\u7684\u8BDD\u8BE5\u5FEB\u53D1\u52A8\u673A\u540E\u8D2D\u623F\u8D37\u6B3E\u597D\u000D\u000A\u041A\u0438\u0442\u0430\u0439\u0441\u043A\u043E\u0435 \u043F\u043E\u0441\u043E\u043B\u044C\u0441\u0442\u0432\u043E \u0432 \u0418\u0440\u0430\u043A\u0435 \u0438 \u0411\u0430\u0433\u0434\u0430\u0434\u0435 \u043E\u0442\u0434\u0435\u043B\u0435\u043D\u0438\u0435 \u000D\u000A\uC774\uB77C\uD06C\uC5D0\uC11C \uC911\uAD6D \uB300\uC0AC\uAD00\uACFC \uC54C\uC758 \uBC14\uADF8\uB2E4\uB4DC \uC9C0\uC0AC - \uB9CC\uC218\uB974 \uD638\uD154\u000D\u000A\u30A4\u30E9\u30AF\u3067\u306E\u5927\u4F7F\u9928\u3084\u30A2\u30EB\u306E\u30D0\u30B0\u30C0\u30C3\u30C9\u652F\u5C40-\u30DE\u30F3\u30B9\u30FC\u30EB\u30DB\u30C6\u30EB\u000D\u000A1234567890!@#$%\u005E\u0026*()\u003C\u003E\u0022\u0027\u005C\u007C\u007D\u007B\u005D\u005B:;\u000D\u000A");
// --></script>
</form>
</body>
</html>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" >
<head><title>
</title></head>
<body>
<form name="form1" method="post" action="WebForm1.aspx" id="form1">
<pre id="pre">中文丰厚警方过后发达看见发的话该快发动机后购房贷款好
Китайское посольство в Ираке и Багдаде отделение
이라크에서 중국 대사관과 알의 바그다드 지사 - 만수르 호텔
イラクでの大使館やアルのバグダッド支局-マンスールホテル
1234567890!@#$%^&*()<>"'\|}{][:;
</pre>
<script language="javascript" type="text/javascript"><!--
alert("\u4E2D\u6587\u4E30\u539A\u8B66\u65B9\u8FC7\u540E\u53D1\u8FBE\u770B\u89C1\u53D1\u7684\u8BDD\u8BE5\u5FEB\u53D1\u52A8\u673A\u540E\u8D2D\u623F\u8D37\u6B3E\u597D\u000D\u000A\u041A\u0438\u0442\u0430\u0439\u0441\u043A\u043E\u0435 \u043F\u043E\u0441\u043E\u043B\u044C\u0441\u0442\u0432\u043E \u0432 \u0418\u0440\u0430\u043A\u0435 \u0438 \u0411\u0430\u0433\u0434\u0430\u0434\u0435 \u043E\u0442\u0434\u0435\u043B\u0435\u043D\u0438\u0435 \u000D\u000A\uC774\uB77C\uD06C\uC5D0\uC11C \uC911\uAD6D \uB300\uC0AC\uAD00\uACFC \uC54C\uC758 \uBC14\uADF8\uB2E4\uB4DC \uC9C0\uC0AC - \uB9CC\uC218\uB974 \uD638\uD154\u000D\u000A\u30A4\u30E9\u30AF\u3067\u306E\u5927\u4F7F\u9928\u3084\u30A2\u30EB\u306E\u30D0\u30B0\u30C0\u30C3\u30C9\u652F\u5C40-\u30DE\u30F3\u30B9\u30FC\u30EB\u30DB\u30C6\u30EB\u000D\u000A1234567890!@#$%\u005E\u0026*()\u003C\u003E\u0022\u0027\u005C\u007C\u007D\u007B\u005D\u005B:;\u000D\u000A");
// --></script>
</form>
</body>
</html>

这样,不管浏览器采用何种编码,页面都不会出现乱码。
==============================================
PHP
PHP的情况就复杂一点,需要考虑mysql的编码。这些姑且不论。
下面给出一点示例,将GBK进行HTML编码。仅作参考:

复制代码 代码如下:

function htmlEncode($text)
{
$encoded = "";
for( $index = 0; $index < strlen($text); $index++)
{
if( ord($text[$index]) <= 127 )
{
switch(ord($text[$index]))
{
case 34:
case 38:
case 39:
case 60:
case 62:
$encoded .= "" .ord($text[$index]).";";
break;
default:
$encoded .= $text[$index];
}
}
else
{
$char = $text[$index] . $text[$index+1];
$char = mb_convert_encoding( $char, "utf-16", "gbk");
$encoded .= "" . (ord($char[0])*256 + ord($char[1])) . ";";
$index++;
}
}
return $encoded;
}
function htmlEncode($text)
{
$encoded = "";
for( $index = 0; $index < strlen($text); $index++)
{
if( ord($text[$index]) <= 127 )
{
switch(ord($text[$index]))
{
case 34:
case 38:
case 39:
case 60:
case 62:
$encoded .= "" .ord($text[$index]).";";
break;
default:
$encoded .= $text[$index];
}
}
else
{
$char = $text[$index] . $text[$index+1];
$char = mb_convert_encoding( $char, "utf-16", "gbk");
$encoded .= "" . (ord($char[0])*256 + ord($char[1])) . ";";
$index++;
}
}
return $encoded;
}

然后通过XML返回,这样就能够彻底杜绝乱码。

复制代码 代码如下:

echo "<?xml version=\"1.0\" encoding=\"utf-8\"?>\n";
echo "<result>";
echo "<success>". ($success ? 1 : 0) ."</success>";
echo "<message>" . htmlEncode($message) . "</message>";
if( $success )
{
echo "<nickname>" . htmlEncode($nickname) . "</nickname>";
echo "<userId>".$userId."</userId>";
echo "<siteId>".$siteId."</siteId>";
echo "<isTeacher>". ($isTeacher ? 1 : 0) ."</isTeacher>";
echo "<ipAddress>" . htmlEncode($ipAddress) . "</ipAddress>";
}
echo "</result>";

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/wangjia184/archive/2009/10/26/4728318.aspx

时间: 2024-10-26 09:44:43

彻底解决页面文字编码乱码问题_相关技巧的相关文章

从此不再惧怕URI编码 JavaScript及C# URI编码详解_相关技巧

混乱的URI编码 JavaScript中编码有三种方法:escape.encodeURI.encodeURIComponent C#中编码主要方法:HttpUtility.UrlEncode.Server.UrlEncode.Uri.EscapeUriString.Uri.EscapeDataString JavaScript中的还好,只提供了三个,C#中主要用的就有这么多,还没有列出其他编码(HTML),一多就弄不明白,弄不明白就心生恐惧,心生恐惧就变得苦逼,本文就向大家详细解释在JavaSc

网站被等恶意镜像的解决、反制措施详细教程_相关技巧

前天在百度搜索王柏元的博客网站关键词时,猛地在百度结果的第一页中发现了一个标题.简介和我完全一样的网站,不看不知道,这个网站还不是传统意义上的抄袭.盗链,不仅仅把我的网站全部照搬,而且把网页里所有的链接都置换成那个镜像网站地址的. 我这才知道:我的网站被人家恶意镜像了. 恶意镜像很危险 恶意镜像由于照搬了源站的所有内容,如果你的网站权重不够高就苦逼了,傻逼的百度如果分不清哪个源站,难保把你当抄袭,如果你的权重干不过人家的话.不管你的权重高不高,被恶意镜像的网站无疑会削弱你的权重,因为百度蜘蛛发现

访客站点停留时间和页面停留时间的实现方案_相关技巧

站点停留时间(Time on Site,下文简称Ts) 和 页面停留时间(Time on Page,下文简称Tp)是用户体验分析及流量质量监控的重要指标.但是极少有人知道网站访问的平均时间(Average Time on Site)是怎么计算出来的.无论是使用竞争情报分析工具,还是某种网站分析解决方案(在网站分析解决方案中不论是WebLog还是JavaScript的标签方式获得的数据,都没几个人知道网站访问平均时间是怎么算出来的). 因此,写这篇文章就是想要解释清楚,Tp和Ts是如何计算的. 案

文本文件编码方式区别_相关技巧

软件一般采用三种方式来决定文本的字符集和编码: 检测文件头标识,提示用户选择,根据一定的规则猜测 最标准的途径是检测文本最开头的几个字节,开头字节Charset/encoding,如下表: EF BB BF UTF-8 FE FF UTF-16/UCS-2, little endian FF FE UTF-16/UCS-2, big endian FF FE 00 00 UTF-32/UCS-4, little endian. 00 00 FE FF UTF-32/UCS-4, big-endi

Web开发/设计人员应当知道的15个网站_相关技巧

ColorCombos 开发/设计人员应当知道的15个网站_相关技巧-web前端开发技巧"> 在进行网站设计的时候,开始步骤的其中一项(也是最重要)的内容是选择出一个配色方案. Color Combos让你可以浏览上千个不同的颜色组合,以便从中为你即将开始的设计汲取灵感.其配色方案可按颜色浏览. LIpsum 风靡之至的Lorem Ipsum文字,其大名谁人不知?哪个不晓?(译注:查了才知道,这是指一篇用于测试排版设计的拉丁文文章,从15世纪开始就被广泛使用,文章因以Lorem Ipsum

Web 设计与开发者必须知道的 15 个站点_相关技巧

 ColorCombos 开发者必须知道的 15 个站点_相关技巧-汇付天下开发者站点"> 配色是 Web 设计的首要大事,Color Combos 帮你预备了数千种配色方案,可以根据色调浏览选取.LIpsum Lorem Ipsum Text 是一中自造的,字典中不存在的单词,是在演示页面结构的时候,需要加文字的地方使用 Lorem Ipsum Text 填充可以避免用户因关注文字的意思而分神.Lipsum.com 可以帮你生成制定数目的 Lorem Ipsum 单词.What the

对Web开发人员有用的8个网站小结_相关技巧

1. Min.us: 上传图片的最简单方 开发人员有用的8个网站小结_相关技巧-web前端开发培训小结"> 任何开发人员.设计师.网络管理员都必须跟客户和同事在线分享图片.Min.us的全部服务就是让你极度简单地上传图片:只需把图片拖拽到Min.us的网页里,图片就会保存在服务器上.并且自动生成短网址,这样你就可以通过这个网站分享图片了. 访问Min.us 2.Wirify:把任何网页转换成线框图 设计网站时线框图非常有用.Wirify是一个可以把任何网页立刻转换成线框图的书签工具,这样你

高性能WEB开发(5) 减少请求,响应的数据量_相关技巧

GZIP压缩    gzip是目前所有浏览器都支持的一种压缩格式,IE6需要SP1及以上才支持(别说你还在用IE5,~_~).gzip可以说是最方便而且也是最大减少响应数据量的1种方法. 说它方便,是因为你不需要为它写任何额外的代码,只需要在http服务器上加上配置都行了,现在主流的http服务器都支持gzip,各种服务器的配置这里就不一一介绍(其实是我不知道怎么配), nginx的配置可以参考我这篇文章:www.blogjava.net/BearRui/archive/2010/01/29/w

Web 开发常用工具 大家自己查找下载_相关技巧

1.regex-coach --正则表达式工具 开发常用工具 大家自己查找下载_相关技巧-excel常用技巧"> 2. IECookiesView--IE的cookie查看工具 3.Flex Trace Panel --Flex开发日志观察工具 4.IE Development Toolbar --微软提供的IE开发插件 5.sIEve--javascript内存泄漏检测工具 6.HttpAnalyzer--HTTP抓包工具