char-c语言文件读取汉字及汉字编码的问题

问题描述

c语言文件读取汉字及汉字编码的问题

先贴程序
#define _CRT_SECURE_NO_WARNINGS

#include

using namespace std;
int main(void)
{
char ch;
FILE *f;
int i = 0;
int count = 0;
f = fopen(""test.txt""r+"");
while ((ch = getc(f)) != EOF)

{

fseek(f i SEEK_SET);

putc(~ch f);

i++;
fseek(f i SEEK_SET);

count++;
}
fclose(f);
printf(""文件操作已经完成n"");
printf(""共处理%d个字节n"" count);
printf(""按任意键结束程序n"");
getchar();
return 0;
}

该程序实现的就是对文件内的字符进行取反，就是简单的加密，再取反一次就变回原样了，也就是解密
在对汉字进行操作的时候，我进行了一些字的实验，目前仅发现了一个王字，在取反后取反回去不能变成王字，我加了查看字符格式的代码，发现王这个字在进行第一次字符操作时候，被分解为三个字节！！！然后再操作，就变成了四个！进行一次加一次，但是其他的汉字目前没发现错误，不知道是怎么回事，难道王字的编码就是三个字节吗？
求大家解答一下，我是新人没有一个c币。。。如果以后我得到了，就追加给你，谢谢啦

解决方案

简单来说，是汉字编码的问题。在Windows里，我们生成的txt文件最有可能是是GBK编码的。它的特点是每个汉字2个字节。没有例外。但是也有可能是Unicode用UTF-8来编码的，对于用Utf-8来编码的话，每个汉字就用3个字节来表示。另外，对文本文件文本，有可能会带上编码前缀那样的话直接读取会多读到几个字节（其实就是前缀）
以王字为例
如果是GBK（或者GB2312），表示为CD F5
如果以UTF-8，表示为E7 8E 8B
如果是以Unicode表示，不带前缀为8B 73，带前缀为FF FE 8B 73

解决方案二：
首先要看文件的编码格式，如果是GBK或者unicode编码，则汉字是2个字节存储，如果是UTF8，则是3个字节。

解决方案三：
可能是存储格式问题，记事本默认的编码为ANSI

时间： 2024-12-30 23:48:33

char-c语言文件读取汉字及汉字编码的问题

问题描述

解决方案

char-c语言文件读取汉字及汉字编码的问题的相关文章

c语言-C语言文件读取问题，求帮忙看看

c语言-C语言文件读取的问题。

c语言算法文件读取-C语言文件读取遇到的问题

c 文件读写-在C语言中读取闻见为UTF-8的汉字，英文混合的文件，又甚么函数可以不出现乱码

c语言-C语言文件读写fscanf 不能读取文件第一行

代码-使用C语言1. 读取一个.C文件，删除该文件中所有的注释语句

wireshark c 文件读取-怎么用C语言读取WireShark捕获的数据包文件

文件操作-c语言实现txt文件读取

GO语言常用的文件读取方式_Golang