utf8

当前,utf8_unicode_ci校对规则仅部分支持Unicode校对规则算法。一些字符还是不能支持。并且,不能完全支持组合的记号。这主要影响越南和俄罗斯的一些少数民族语言,如:Udmurt 、Tatar、Bashkir和Mari。

utf8_unicode_ci的最主要的特色是支持扩展,即当把一个字母看作与其它字母组合相等时。例如,在德语和一些其它语言中‘ß’等于‘ss’。

utf8_general_ci是一个遗留的 校对规则,不支持扩展。它仅能够在字符之间进行逐个比较。这意味着utf8_general_ci校对规则进行的比较速度很快,但是与使用utf8_unicode_ci的校对规则相比,比较正确性较差)。

例如,使用utf8_general_ci和utf8_unicode_ci两种 校对规则下面的比较相等:

Ä = A

Ö = O

Ü = U

两种校对规则之间的区别是,对于utf8_general_ci下面的等式成立:

ß = s

但是,对于utf8_unicode_ci下面等式成立:

ß = ss

对于一种语言仅当使用utf8_unicode_ci排序做的不好时,才执行与具体语言相关的utf8字符集 校对规则。例如,对于德语和法语,utf8_unicode_ci工作的很好,因此不再需要为这两种语言创建特殊的utf8校对规则。

utf8_general_ci也适用与德语和法语,除了‘ß’等于‘s’,而不是‘ss’之外。如果你的应用能够接受这些,那么应该使用utf8_general_ci,因为它速度快。否则,使用utf8_unicode_ci,因为它比较准确。

时间: 2024-12-26 20:09:22

utf8的相关文章

移除UTF-8文件头的BOM

inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish ).(来源:http://blog.csdn.net/inkfish) UTF-8 BOM又叫UTF-8 签名,在UTF-8文件的头部,长度为3个字节.其实UTF-8 的BOM对UFT-8没有作用,BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别.但是在Eclipse中,带有BOM的java源码生成javadoc时却会出现如下错误:(来源:http://blog.cs

utf 8-关于UTF-8中的汉字读取

问题描述 关于UTF-8中的汉字读取 想读取一个有中英混编UTF-8文件中的汉字内容.应该怎么读取啊.汉字只有0xE4XXXX到0xE9XXXX么? 解决方案 这篇文章应该有帮助字符编码笔记:ASCII,Unicode和UTF-8 然后看这个是范围: UTF-8 编码规则详解与 UTF-8 汉字编码范围 解决方案二: 正则来读取,一般就是在[u4e00-u9fa5]这个范围内的多

解决IIS下UTF-8文件报错乱码问题

解决IIS下UTF-8文件报错乱码的问题 原因: 你的网站是utf-8编码,但iis的错误信息输出默认使用的是gb2312编码.导致iis出现运行时错误的时候显示的页面是乱码. 解决办法: [办法1] 自己处理错误,不让iis来处理. 在所有可能出错的地方,都用类似下面的方式来捕捉. On Error Resume Next Err.Raise 6 '这行是可能出错的代码 If Err Then Response.Write Err.Description Response.End End If

在cmd窗口中显示UTF-8字符

有这么一个文件,它在Eclipse属性中看到是UTF8编码的,里面包含了中文: 但是当在Windows控制台中查看这个文件(为了方便,我将文件拷贝到桌面了)的时候,就是乱码了: 那如何让cmd可以显示这些UTF8编码的字符呢?这里需要先了解些相关内容: chcp命令 chcp是MS DOS中的命令,用来显示或设置活动代码页编号的.用法是: ? 1 2 3 4 5 6 7 8 C:\Users\002778\Desktop>chcp /? 显示或设置活动代码页编号.   CHCP [nnn]  

MySQL中UTF8编码的数据在cmd下乱码

花了一下午,解决MySQL在Windows的cmd下中文乱码的问题. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 mysql> use abc; Database changed mysql> select * from school; +----------+--------------------+-------------------------------------------+ | schoolid | name               | address 

关于在UNICODE CString转UTF-8

问题描述 关于在UNICODE CString转UTF-8 如何Unicode下,将CString转成UTF-8.例如:CString xx=""您好""CSting str=URLEnCode(xx);转换后的结果:str的内容就是%e6%82 解决方案 CString str(_T(""我是中国人"")); CT2A szUtf8(strCP_UTF8); string s_utf8(szUtf8); CString st

mysql的默认码子怎样改成UTF-8的码子?

问题描述 mysql的默认码子怎样改成UTF-8的码子? 我的mysql数据库中的默认码子是英文的怎样改成utf-8的码子? 解决方案 Windows系统 1.中止MySQL服务 2.在MySQL的安装目录下找到my.ini,如果没有就把my-medium.ini复制为一个my.ini即可 3.打开my.ini以后,在[client]和[mysqld]下面均加上default-character-set=utf8,保存并关闭 4.启动MySQL服务 运行下面两条命令查看修改的结果: 1.运行命令

mac下修改mysql默认字符集为utf8

1.首先检查默认安装的字符集 [html] view plain copy  print? mysql> show variables like '%char%';   +--------------------------+--------------------------------------------------------+   | Variable_name            | Value                                           

UTF-8编码的网页如何自定义表单提交给百度搜索

有时,为了方便访问者直接在自己的网站调用百度的搜索功能,自己就自定义的写了一个表单来提交到百度的网址,代码如下: <form action="http://www.baidu.com/s" id="fbd" target="_blank">  <p class="tt">百度优化搜索</p>  <p class="input"><input type=&

ASP 系统中输出 UTF-8 内容(XML)的方法

ASP 做的系统默认是 GB2312 的,有时候用来输出 XML 会遇到一个问题:就是大多数情况下要求 XML 为 UTF-8 格式的. 如果我们直接指定 <?xml version="1.0" encoding="utf-8"?> 是不够的. 正确的应该是: <%dim originalCoagePageoriginalCoagePage = Session.CodePage ' 记住原来的 CodePage(默认为 936)Session.Co