VC++中字符串编码的转换

在以前VC++6.0中默认的字符集是多字节字符集(MBCS:Multi-Byte Character Set),而VS2005及以后默认的字符集是Unicode,这样导致以前在VC6.0中非常简单实用的各类字符操作和函数在VS2010环境下运行时会报各种各样的错误。

字符集可以通过工程属性修改:“工程-属性-字符集”。

CString在Unicode和多字节字符集下的区别:CString 是基于 TCHAR 数据类型的。如果为程序的生成定义了符号 _UNICODE,则会将 TCHAR 定义为 wchar_t 类型(一个 16 位的字符编码类型);否则,会将它定义为 char(普通的 8 位字符编码)。于是,在 Unicode 下,CString 由 16 位字符组成。如果没有 Unicode,它们则由 char 类型的字符组成(来自MSDN)。

以下是CString在Visual C++ .NET 2010环境中Unicode字符集下CString和char *之间相互转换的几种方法,其实也就是Unicode字符集与MBCS字符集转换。

1.Unicode下CString转换为char *

方法一: 使用API:WideCharToMultiByte进行转换

CString str = _T("你好,世界!Hello,World");
//注意:以下n和len的值大小不同,n是按字符计算的,len是按字节计算的
int n = str.GetLength();
//获取宽字节字符的大小,大小是按字节计算的
int len = WideCharToMultiByte(CP_ACP,0,str,str.GetLength(),NULL,0,NULL,NULL);
//为多字节字符数组申请空间,数组大小为按字节计算的宽字节字节大小
char * pFileName = new char[len+1];   //以字节为单位
//宽字节编码转换成多字节编码
WideCharToMultiByte(CP_ACP,0,str,str.GetLength(),pFileName,len,NULL,NULL);
pFileName[len+1] = ‘\0‘;   //多字节字符以’\0′结束

方法二:使用函数:T2A、W2A

CString str = _T("你好,世界!Hello,World");
//声明标识符
USES_CONVERSION;
//调用函数,T2A和W2A均支持ATL和MFC中的字符转换
char * pFileName = T2A(str);
//char * pFileName = W2A(str); //也可实现转换

2、Unicode下char *转换为CString

方法一:使用API:MultiByteToWideChar进行转换

char * pFileName = "你好,世界!Hello,World";
//计算char *数组大小,以字节为单位,一个汉字占两个字节
int charLen = strlen(pFileName);
//计算多字节字符的大小,按字符计算。
int len = MultiByteToWideChar(CP_ACP,0,pFileName,charLen,NULL,0);
//为宽字节字符数组申请空间,数组大小为按字节计算的多字节字符大小
TCHAR *buf = new TCHAR[len + 1];
//多字节编码转换成宽字节编码
MultiByteToWideChar(CP_ACP,0,pFileName,charLen,buf,len);
buf[len] = ‘\0‘; //添加字符串结尾,注意不是len+1
//将TCHAR数组转换为CString
CString pWideChar;
pWideChar.Append(buf);
//删除缓冲区
delete []buf;

方法二:使用函数:A2T、A2W

char * pFileName = "你好,世界!Hello,World";
USES_CONVERSION;
CString s = A2T(pFileName);
//CString s = A2W(pFileName);

下面是在网上看到的转换代码,注意函数MultiByteToWideChar()和WideCharToMultiByte()第四个参数传入-1时表示第三个参数传入的字符串是null结尾的(null-terminated),这时候返回的字节数(字符数)就包含了null,详情看MSDN。

#include "stdafx.h"

#include <windows.h>
#include <iostream>
#include <vector>
#include <atlstr.h>

using namespace std;

std::wstring UT2WC(const char* buf)
{
    int len = MultiByteToWideChar(CP_UTF8, 0, buf, -1, NULL, 0);
    std::vector<wchar_t> unicode(len);
    MultiByteToWideChar(CP_UTF8, 0, buf, -1, &unicode[0], len);
    return std::wstring(&unicode[0]);
}

std::string WC2UT(const wchar_t* buf)
{
    int len = WideCharToMultiByte(CP_UTF8, 0, buf, -1, NULL, 0, NULL, NULL);
    std::vector<char> utf8(len);
    WideCharToMultiByte(CP_UTF8, 0, buf, -1, &utf8[0], len, NULL, NULL);
    return std::string(&utf8[0]);
}

std::wstring MB2WC(const char* buf)
{
    int len = MultiByteToWideChar(CP_ACP, 0, buf, -1, NULL, 0);
    std::vector<wchar_t> unicode(len);
    MultiByteToWideChar(CP_ACP, 0, buf, -1, &unicode[0], len);
    return std::wstring(&unicode[0]);
}

std::string WC2MB(const wchar_t* buf)
{
    int len = WideCharToMultiByte(CP_ACP, 0, buf, -1, NULL, 0, NULL, NULL);
    std::vector<char> utf8(len);
    WideCharToMultiByte(CP_ACP, 0, buf, -1, &utf8[0], len, NULL, NULL);
    return std::string(&utf8[0]);
}

int main()
{
    setlocale(LC_ALL, "");
    CString str = "UNICODE转换成UTF-8";
    //cout << WC2UT(str).c_str() << endl; //Unicode下
    BSTR bstr = str.AllocSysString();
    cout << WC2UT(bstr).c_str() << endl; //多字符集下/Unicode下

    std::string s = WC2UT(bstr);
    SysFreeString(bstr);
    std::wstring ws = UT2WC(s.c_str());
    wcout<< ws.c_str() << endl;

    const wchar_t* s1 = L"UNICODE转换成UTF-8";
    cout << WC2UT(s1).c_str() << endl;

    const char* s2 = "ANSI转换成UNICODE";
    wcout << MB2WC(s2).c_str() << endl;

    const wchar_t* s3 = L"UNICODE转换成ANSI";
    cout << WC2MB(s3).c_str() << endl;

    return 0;
}

 

参考:

http://msdn.microsoft.com/en-us/library/87zae4a3(v=vs.80).aspx

WideCharToMultiByte:
http://msdn.microsoft.com/en-us/library/windows/desktop/dd374130(v=vs.85).aspx

MultiByteToWideChar:
http://msdn.microsoft.com/en-us/library/windows/desktop/dd319072(v=vs.85).aspx

 

 

作者:阿凡卢

出处:http://www.cnblogs.com/luxiaoxun/

本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

http://www.cnblogs.com/luxiaoxun/p/3454733.html

时间: 2024-09-22 12:29:43

VC++中字符串编码的转换的相关文章

怎么让C++中字符串编码为utf8,而不是ansi?

问题描述 怎么让C++中字符串编码为utf8,而不是ansi? 如题,编译器为VS.NET2015,这个问题困惑好久,各种尝试都失败,总是要转码一下,很绕很麻烦浪费性能,我想字符串常量直接编译成utf8,不要总是转换成ansi,高手赐教啊 vs这个特性怎么就这么可恶呢?!http://blog.csdn.net/infoworld/article/details/36670353 解决方案 用 _T _L等宏.http://www.cnblogs.com/wanghao111/archive/2

android-VB中base64编码如何转换到Android中,已有初步代码,但转换结果不一致

问题描述 VB中base64编码如何转换到Android中,已有初步代码,但转换结果不一致 没搞过VB 现在给我一串VB中的base64编码,移植到Android中,按照我的想法写好之后,发现编码之后的结果并不一样,请大家给我看看. VB: Set m_oXMLElement = m_oXMLDoc.createElement("TmpBase64") m_oXMLElement.dataType = "bin.base64" Public Function Enc

js中字符串编码函数escape()、encodeURI()、encodeURIComponent()区别详解_javascript技巧

JavaScript中有三个可以对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数: unescape,decodeURI,decodeURIComponent . 下面简单介绍一下它们的区别 1 escape()函数 定义和用法 escape() 函数可对字符串进行编码,这样就可以在所有的计算机上读取该字符串. 语法 escape(string) 参数 描述 string 必需.要被转义或编码的字符串. 返回值 已编码的 st

PHP学习笔记之字符串编码的转换和判断_php技巧

复制代码 代码如下: iconv('GBK', 'UTF-8//IGNORE', ''); // 将字符串由 GBK 编码转换为 UTF-8 编码 但 iconv 只能解决编码预先知道的情况,如果字符串编码未知,则需要先探测其编码,这时可能会用到 mb_string 扩展库: 复制代码 代码如下: mb_detect_encoding(''); 可是 mb_detect_encoding 存在一个硬伤,经常出现判断不准确的情况.或许这样就可以解决: 复制代码 代码如下: // 使用 iconv

VC中BASE64编码和解码使用详解_C 语言

BASE64可以用来将binary的字节序列数据编码成ASCII字符序列构成的文本.完整的BASE64定义可见 RFC1421和 RFC2045.编码后的数据比原始数据略长,为原来的4/3.在电子邮件中,根据RFC822规定,每76个字符,还需要加上一个回车换行. 转换的时候,将三个byte的数据,先后放入一个24bit的缓冲区中,先来的byte占高位.数据不足3byte的话,于缓冲区中剩下的Bit用0补足.然后,每次取出6个bit,按照其值选择ABCDEFGHIJKLMNOPQRSTUVWXY

C#中字符串编码处理_C#教程

GB2312是简体中文系统的标准编码 用"区" 跟"位"的概念表示 称之为区位码 区指代大的范围 位相当于偏移量.每个汉字占两个字节高位字节"的范围是0xB0-0xF7,"低位字节"的范围是0xA1-0xFE.它的规律好像是按拼音a到z的顺序排列的"啊"字是GB2312之中的第一个汉字,它的区位码就是1601为此我们现在用代码的方式输出一个汉字c#下是little字节序 b0跑后面去了. 复制代码 代码如下:  us

浅析PHP中的字符串编码转换(自动识别原编码)

本篇文章是对PHP中字符串编码转换的实现代码进行了详细的分析介绍,需要的朋友参考下   复制代码 代码如下: /**  * 对数据进行编码转换  * @param array/string $data       数组  * @param string $output    转换后的编码  */ function array_iconv($data,$output = 'utf-8') {  $encode_arr = array('UTF-8','ASCII','GBK','GB2312','

图片-VC 中编码转换乱码问题

问题描述 VC 中编码转换乱码问题 为什么a是'{'??? 解决方案 http://www.guokr.com/blog/763017/ 检查转换是否正确,编码的选择等 解决方案二: 编码转换是否正确 对应编码格式支持吗

VC中实现GB2312、BIG5、Unicode编码转换的方法_C 语言

本文主要以实例形式讨论了VC编译环境下,实现字符串和文件编码方式转换的方法,在linux下请使用Strconv来实现.具体方法如下: 一.文件编码格式转换 //GB2312 编码文件转换成 Unicode: if((file_handle = fopen(filenam,"rb")) != NULL) { //从GB2312源文件以二进制的方式读取buffer numread = fread(str_buf_pool,sizeof(char),POOL_BUFF_SIZE,file_h