C++中汉字字符串的截取_C 语言

1、

复制代码 代码如下:

const char *str = "test测试test";
while(*str)
{
//这里只需要判断第一个字节大于0x80就行了,前提是输入的是合法的GBK字符串
//原因在于,如果第一个字节大于0x80,那么它必然和后面一个字节一起组成一个汉字
//所以就没有必要再去判断后面一个字节了
//再强调一下,前提条件是输入合法的GBK字符串
if(*str > 0x80)
{
// 汉字,计数器++
str += 2;//是汉字自然就该直接+2了
}
else
{
str++;
}
}

2、

参看下面的字符串转换函数。

复制代码 代码如下:

/**
* 用getBytes(encoding):返回字符串的一个byte数组
* 当b[0]为 63时,应该是转码错误
* A、不乱码的汉字字符串:
* 1、encoding用GB2312时,每byte是负数;
* 2、encoding用ISO8859_1时,b[i]全是63。

* B、乱码的汉字字符串:
* 1、encoding用ISO8859_1时,每byte也是负数;
* 2、encoding用GB2312时,b[i]大部分是63。
* C、英文字符串
* 1、encoding用ISO8859_1和GB2312时,每byte都大于0;
* 总结:给定一个字符串,用getBytes("iso8859_1")
* 1、如果b[i]有63,不用转码; A-2
* 2、如果b[i]全大于0,那么为英文字符串,不用转码; B-1
* 3、如果b[i]有小于0的,那么已经乱码,要转码。 C-1
*/
private static String toGb2312(String str) {
if (str == null) return null;
String retStr = str;
byte b[];
try {
b = str.getBytes("ISO8859_1");

for (int i = 0; i < b.length; i++) {
byte b1 = b[i];
if (b1 == 63)
break; //1
else if (b1 > 0)
continue;//2
else if (b1 < 0) { //不可能为0,0为字符串结束符
retStr = new String(b, "GB2312");
break;
}
}
} catch (UnsupportedEncodingException e) {
// e.printStackTrace();
}
return retStr;
}

3、

复制代码 代码如下:

unsigned char *str = "test测试test";
int length;
int i;

length = strlen(str);
for (i = 0; i < length - 1; i++)
{
if ( *str >= 0x81 && *str <= 0xFE
&& *(str + 1) >= 0x40 && *(str + 1) <= 0xFE)
{
// 汉字
}
}

unsignedchar*str="test测试test";//把字符串换成“汉A”试试,结果为2

有人说:“一个GBK汉字要占两个char空间(二字节),而且第一个字节里的值是小于0的。可以据此判断是否为汉字。”
1、为什么第一个字节的值小于0呢?
2、如果仅通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字,这种逻辑是否保险?
3、因为还看到有人说,GBK编码的汉字有高位和低位两位,第一个是低位吧?需要第一个字节在160-254之间,第二个字节在64-254之间,这样是不是比2中提到的方法要保险?
4、如果DB中的字符集是SIMPLIFIED CHINESE_CHINA.ZHS16GBK,这个是GBK字符集?GBK兼容GB2312

似乎有些字符集中有些汉字占三个字节

“通过判断第一个字节如果小于0,则该字节和下一个字节就组成一个汉字”

//GBK汉字内码范围
//81-A0 ,40-7E 80-FE
//AA-AF ,40-7E 80-A0
//B0-D6 ,40-7E 80-FE
//D7 ,40-7E 80-F9
//D8-F7 ,40-7E 80-FE
//F8-FE ,40-7E 80-A0
例如://81-A0 ,40-7E 80-FE
表示字符的ascii码要在129-160,64-126,128-254这三个区间段内

4、
在工作中,遇到要截取字符串在屏幕上显示出来,因为字符串带有汉字,如果截取不好,会引起乱码,写了下面的函数

在uclinux下与VC6.0中测试可以通过。

view plaincopy to clipboardprint?

复制代码 代码如下:

 /*截取字符串

 name :要截取的字符串

 store:要存储的字符串

 len:要截取的长度

 */

 void split_name( char * name , char * store , int len )
 {

     int i= 0 ;

     char strTemp[L(NAMEL)]={0};

     if ( strlen(name)
     {

         strcpy( store, name );  *name=0;

         return ;

     }

     //从第1个字节开始判断

     while( i < len )

     {

         if ( name[i]>>7&1 && name[i+1]>>7&1 )       //if ( name[i] < 0 && name[i+1] < 0 )

             i = i + 2 ;

         else

             i = i + 1 ;

     }

     i = i > len ? i-3 :i-1;

     strncpy( store , name , i+1 ); //截取前i+1位

     *(store+i+1)=0;

     strcpy( strTemp , name + i + 1 );

     strcpy( name , strTemp );

 }

时间: 2024-08-01 23:10:54

C++中汉字字符串的截取_C 语言的相关文章

javascript-如何用jquery获取到td中的字符串,截取字符串

问题描述 如何用jquery获取到td中的字符串,截取字符串 获取flag = 'title'中的ulistJosn[i].questitle,并将改字符串截取 各位帮我看看该怎么实现 获取flag = 'title'中的ulistJosn[i].questitle $("td[flag='title']").each(function(){ $(this).html(cutString($(this).html(),5,"...")); }); td: html

C语言左旋转字符串与翻转字符串中单词顺序的方法_C 语言

左旋转字符串题目: 定义字符串的左旋转操作:把字符串前面的若干个字符移动到字符串的尾部. 如把字符串 abcdef  左旋转 2  位得到字符串 cdefab.请实现字符串左旋转的函数. 要求时间对长度为 n  的字符串操作的复杂度为 O(n),辅助内存为 O(1). 分析: 网上看到解法很多种,就不详细说明了. 我采用的是数组不对称的交换时间复杂度应该是O(n). 代码实现(GCC编译通过): #include "stdio.h" #include "stdlib.h&qu

C++实现将一个字符串中的字符替换成另一个字符串的方法_C 语言

本文实例讲述了C++实现将一个字符串中的字符替换成另一个字符串的方法,分享给大家供大家参考.具体方法如下: 题目要求: 原地实现字符串中的每个空格替换成"%20",例如输入"We are happy", 输出"We%20are%20happy" 被替换的字符串当然不仅仅是空格,上面只是个例子 这是道很好的题目,也是百度面试中的一道题,题目不难,但是问题得考虑全面.这里给出如下实现代码: #include <iostream> #inc

C语言实现去除字符串中空格的简单实例_C 语言

在网上看了些去除空格的代码,觉得都不是很简洁,就自己写代码实现它本着高效率,不使用额外存储空间的想法实现该功能去除空格一共有三种: 1.去除全部空格: 2.一种是去除左边空格: 3.去除右边空格  想去除左右两边空格,只要先去除左边再去除右边的就行了 以下是实现代码: /*去除字符串中所有空格*/ voidVS_StrTrim(char*pStr) { char *pTmp = pStr; while (*pStr != '/0') { if (*pStr != ' ') { *pTmp++ =

C语言实现输入一个字符串后打印出该字符串中字符的所有排列_C 语言

本文实例讲述了C语言实现输入一个字符串后打印出该字符串中字符的所有排列的方法,属于数学里的排列问题.是一个很实用的算法技巧.分享给大家供大家参考.具体实现方法如下: 例如输入字符串abc,则输出由字符a.b.c所能排列出来的所有字符串abc.acb.bac.bca.cab和cba. C语言实现代码如下: /* * Copyright (c) 2011 alexingcool. All Rights Reserved. */ #include <iostream> #include <al

c++统计文件中字符个数代码汇总_C 语言

我们先来看看下面的代码: #include<iostream> #include<fstream> #include<cstdlib> using namespace std; class CntCharacters { private: int cnt; public: CntCharacters():cnt(0){} ~CntCharacters(){} void opentxt(char* p) { ifstream fin; fin.open(p,ios_bas

使用C语言解决字符串全排列问题_C 语言

问题输入一个字符串,打印出该字符串中字符的所有排列.例如输入字符串abc,则输出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba 思路这是典型的递归求解问题,递归算法有四个特性:     必须有可达到的终止条件,否则程序陷入死循环     子问题在规模上比原问题小     子问题可通过再次递归调用求解     子问题的解应能组合成整个问题的解 对于字符串的排列问题: 如果能生成n-1个元素的全排列,就能生成n个元素的全排列.对于只有一个元素的集合,可以直接生

利用C语言替换文件中某一行的方法_C 语言

文件中存贮的内容如下所示: 11 1122 0 1122 * * 0 0 22 222 0 222 * * 0 0 33 333 0 333 * * 0 0 通过使用下面的几个函数,fopen,fprintf,fscanf,fseek,ftell . 具体的函数函数原型如下所示: FILE*fopen(const char*filename,const char *mode); int fprintf(FILE*stream,const char *format,...) int fscanf(

与ASCII码相关的C语言字符串操作函数_C 语言

C语言toascii()函数:将字符转换成对应的ASCII码头文件: #include <ctype.h> 定义函数: int toascii(int c); 函数说明:toascii()会将参数c 转换成7 位的unsigned char 值,第八位则会被清除,此字符即会被转成ASCII码字符. 返回值:将转换成功的ASCII 码字符值返回. 范例:将int 型a 转换成ASSII 码字符. #include <stdlib.h> main(){ int a = 217; cha