使用Python转换全角字符串为半角

关于全角转换为半角的问题,其实源自在公司的运营人员在输入法切换的时候选择了全角,结果导致程序有时候没有办法进行解析。

为了避免这样的问题再次出现,于是就有了将全角转换为半角的问题了。

在这里,会对以下内容进行描述:

  • 什么是全角
  • 如何将全角字符转换为半角
  • 使用python实现上述转换操作

我们知道在编码中,存储在计算机中仅仅是1个数字,而编码其实充当的是1种转换的过程,如果将1个字符转换为1个数字而问题。

全角和半角

一般情况下,普通的英文字符只占用1个字节的空间,而1个字节有8位,因此可以存储256个字符。而汉字、日语及朝鲜文字这样CJK的文字很明显不止256个,因此会使用2个字节来存储。

而在使用英文输入法时,我们将1个英文字符所占的位置称为半角。而由于1个汉字占用2个英文字符的位置,因为我们将其称为全角。

需要注意的是,只有在支持汉字等语言的计算及上才存在全角和半角的概念。另外,虽然通常情况下的英文字母、数字键及符号键都是半角的,但是为了排列整齐,英文和其他拉丁文的字符和标签也可以使用全角格式。

因此,我们知道全角需要占用2个字节,而半角则占用1个字节。

全角转换为半角

在ASCII编码中,我们知道可以打印的字符只有127-33=94个。在这里,我们需要去除del键及ASCII编码表中前32位。

由于半角和全角只是占用字节个数的不同,因此全角可打印的字符也是94个。因此这2者之间是存在规律的,比如我们假设半角a字符的在计算机中存储的数字为60,而全角的a字符在计算机中存储的数字为1200。而假设a的下1个字符为b,其存储的数字为61,
那么全角的b字符存储的数字应为1201。

因此,这种一一映射的关系就查看各种规范中是如何定义的了。不同的规范定义会有所不同。

由于在Unicode规定中,半角字符是从33开始,到126结束。而Unicode中全角的编码是从65281开始到65374结束。

细心的你们会发现,这里少了1个字符,那就是空格。在半角中,空格是32,而在全角中它是12288。

python的实现转换

现在,我们使用python来实现转换的操作,我们会检查给定的字符是否为全角,只有在全角的情况下才进行转换的操作。


  1. def FullToHalf(s): 
  2.     n = [] 
  3.     s = s.decode('utf-8') 
  4.     for char in s: 
  5.         num = ord(char) 
  6.         if num == 0x3000: 
  7.             num = 32 
  8.         elif 0xFF01 <= num <= 0xFF5E: 
  9.             num -= 0xfee0 
  10.         num = unichr(num) 
  11.         n.append(num) 
  12.     return ''.join(n) 

在这里,我们对字符串进行遍历,然后判断其字符的大小,如果给定的字符是全角则将其进行减法操作。最后将其组装在一起返回就可以了。

然后我们进行如下的测试:


  1. s = "张三,是1个帅哥。" 
  2. result = FullToHalf(s) 
  3. print result 
  4. print '-' * 80 
  5. print s 

其结果如下所示:


  1. 张三,是1个帅哥。 
  2. ----------------------------------------------------------------------- 
  3. 张三,是1个帅哥。 

当然,除了以上的方式外,还有其他的方式将全角转换为半角。比如我隔壁那个搞python的哥们直接就用正则进行匹配然后批量的进行转换。

由于我比较懒和能力比较有限,只好通过上面的方式来简化我的工作量。

作者:我勒个去

来源:51CTO

时间: 2024-09-22 19:41:58

使用Python转换全角字符串为半角的相关文章

word教你批量转换全角字符为半角字符

  word使用技巧:教你批量转换全角字符为半角字符 1.首先全选; 2.然后"格式"→"更改大小写";   3.在对话框中先选中"半角",确定即可.

C# 转换全角数字为半角数字

  C#全角半角转换,这里的对象是数字,因为全角数字和半角数字显示的样式是不一样的,而且在内存中所占字节也是不同的,为了更标准些,我们可以通过下面的函数转换用户输入中的全角数字,挺方便: view sourceprint?01/// 02/// 将全角数字转换为数字 03///</summary> 04///<param name="SBCCase"></param> 05///<returns></returns> 06pu

Python实现全角半角转换的方法_python

本文实例讲解了Python实现全角半角转换的方法,相信对于大家的Python学习能够起到一定的参考借鉴价值.如下所示: 一.全角半角转换概述: 全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E) 半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E) 空格比较特殊,全角为 12288(0x3000),半角为 32 (0x20) 而且除空格外,全角/半角按unicode编码排序在顺序上是对应的 所以可以直接通过用+-法来处理非空格

又一个字符串,由全角字符,半角字符构成,如何截取该字符串,全角算两个字符

问题描述 又一个字符串,由全角字符,半角字符构成,如何截取该字符串,全角算两个字符 解决方案 解决方案二:看看这个是你要的吗?///<summary>///取中文字串///</summary>///<paramname="content">内容</param>///<paramname="length">长度</param>///<returns></returns>pr

ASP.NET技巧:全角字符转换为半角

asp.net|技巧|转换 方法一:/**//// <summary>    /// 判断字符是否英文半角字符或标点    /// </summary>    /// <remarks>    /// 32    空格    /// 33-47    标点    /// 48-57    0~9    /// 58-64    标点    /// 65-90    A~Z    /// 91-96    标点    /// 97-122    a~z    /// 12

java全角字符转换为半角 半角转全角

/// <summary> /// 判断字符是否英文半角字符或标点 /// </summary> /// <remarks> /// 32 空格 /// 33-47 标点 /// 48-57 0~9 /// 58-64 标点 /// 65-90 A~Z /// 91-96 标点 /// 97-122 a~z /// 123-126 标点 /// </remarks> public static bool IsBjChar(char c) { int i =

PHP实现全角字符转为半角方法汇总_php技巧

最简单的方法 <?php $str = "0123ABCDFWS\",.?<>{}[]*&^%#@!-()+-|::"; echo "$str"; echo "<br />"; $str = preg_replace('/\xa3([\xa1-\xfe])/e', 'chr(ord(\1)-0x80)', $str); echo $str; 这是网上看来的代码,所有的中文标点的第二个字节减去0X80(即128

用自定义函数替换SQL中的全角数字为半角数字

函数 在我们使用MSSQL的时候,有时表中有一些是全角的数字,但我们的系统不能够正确的使用它们,这时我们要把他们替换为半角数字.而SQL自己好像没有这个函数. 没有,我们自己动手: 下面就是我自己写的一个函数,当然,我的数据量小,没有考虑性能! --  把全角数据转换成半角数字(注意,这个只能转换全是全角的,在第一个半角数据时返回)--  公司:石家庄创联科技--  编写:牛昆亮  QQ:273352165 create function  ufn_convertWideNumericToAns

把全角数字转为半角数字

 //把全角数字转为半角数字  <?  function GetAlabNum($fnum){  $nums = array("0","1","2","3","4","5","6","7","8","9"); //OSPHP.com.CN $fnums = "0123456789";