MaxCompute UDF系列之全角转半角

我们在做文本挖掘处理的时候，需要经常把全角字符转成半角处理，今天为大家提供一个全角转半角的MaxCompute UDF，下载地址见附件。

效果如下：

MaxCompute UDF代码如下：

package com.yinlin.udf.dev;
import com.aliyun.odps.udf.UDF;
//import org.apache.commons.lang.StringUtils;
/**
* 提供对字符串的全角->半角，半角->全角转换
*/
public class BCConvert extends UDF {
/**
* ASCII表中可见字符从!开始，偏移位值为33(Decimal)
*/
static final char DBC_CHAR_START = 33; // 半角!
/**
* ASCII表中可见字符到~结束，偏移位值为126(Decimal)
*/
static final char DBC_CHAR_END = 126; // 半角~
/**
* 全角对应于ASCII表的可见字符从！开始，偏移值为65281
*/
static final char SBC_CHAR_START = 65281; // 全角！
/**
* 全角对应于ASCII表的可见字符到～结束，偏移值为65374
*/
static final char SBC_CHAR_END = 65374; // 全角～
/**
* ASCII表中除空格外的可见字符与对应的全角字符的相对偏移
*/
static final int CONVERT_STEP = 65248; // 全角半角转换间隔
/**
* 全角空格的值，它没有遵从与ASCII的相对偏移，必须单独处理
*/
static final char SBC_SPACE = 12288; // 全角空格 12288
/**
* 半角空格的值，在ASCII中为32(Decimal)
*/
static final char DBC_SPACE = ' '; // 半角空格
/**
* 全角字符->半角字符转换
* 只处理全角的空格，全角！到全角～之间的字符，忽略其他
*/
public String evaluate(String src) {
  if (src == null) {return src;}
  StringBuilder buf = new StringBuilder(src.length());
  char[] ca = src.toCharArray();
  for (int i = 0; i < src.length(); i++) {
      if      (ca[i] >= SBC_CHAR_START && ca[i] <= SBC_CHAR_END)
              {// 如果位于全角！到全角～区间内
               buf.append((char) (ca[i] - CONVERT_STEP));
              }
      else if (ca[i] == SBC_SPACE)
              {// 如果是全角空格
               buf.append(DBC_SPACE);
              }
      else    { // 不处理全角空格，全角！到全角～区间外的字符
               buf.append(ca[i]);
              }
      }
  return buf.toString();
  }
}

使用方法：

1、通过Eclipse将BCConver.java编译成Jar包，命名为BCConver.jar。

2、通过大数据开发套件，上传资源BCConver.jar；

3、通过大数据开发套件，引用第二步上传的BCConver.jar资源，注册bcconver函数；

4、通过大数据开发套件新建SQL脚本，输入SQL函数进行测试。

--创建虚拟表
CREATE TABLE IF NOT EXISTS dual (id STRING);
insert into table dual select '1' from (select count(1) from dual) t;

--提供对字符串的全角->半角
select bcconvert('ｎｉｈａｏｈｋ　｜　　　ｎｉｈｅｈｅ　，。　７８　　７　')  from yinlin_demo.dual limit 1;

到此为止，实验完成。

常见问题

Q：无结果？

我们在创建虚拟dual表的时候，一定要保证表中有数据。

Q：无法找到函数？

利用大数据开发套件注册函数的时候需要包名+类名，否则会找不到类。

阿里巴巴大数据-玩家社区 /

---阿里大数据博文，问答，社群，实践，有朋自远方来，不亦说乎……

时间： 2024-12-31 19:53:08

MaxCompute UDF系列之全角转半角的相关文章

用ASP实现全角和半角之间的转化

在接受表单中的数组情况下多是用|或者,隔开的.然而","","全角与半角是有区别的,今天就介绍如何将其转化 <% Function DBC2SBC(Str, flag) rem 全角半角转换函数 rem flag=-1时进行半角转全角 rem flag=0时进行半角全角互转 rem flag=1时进行全角转半角 Dim i, sStr If Len(Str)<= 0 Then Exit Function DBC2SBC = "" Fo

全角和半角的区别

什么是全角和半角? (1)全角---指一个字符占用两个标准字符位置. 汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符.一般的系统命令是不用全角字符的,只是在作文字处理时才会使用全角字符. (2)半角---指一字符占用一个标准的字符位置. 通常的英文字母.数字键.符号键都是半角的,半角的显示内码都是一个字节.在系统内部,以上三种字符是作为基本代码处理的,所以用户输入命令和参数时一般都使用半角. 全角与半角有什么区别?各在什么情况下使用? 全角占两个字节,半

android开发-Android中关于全角和半角转换并且做输入限制的类

问题描述 Android中关于全角和半角转换并且做输入限制的类在开发一个项目中,需要对昵称和签名做输入限制,而且是限制全角的方式,怎么实现解决方案全角字符占用2个字符位置,半角字符占用1个字符位置. 做长度测试不知道行不你试试

sql-SQL 2008 全角转半角遇到特殊字符

问题描述 SQL 2008 全角转半角遇到特殊字符函数是这样的这个方法全角转半角有个BUG 就是遇到这样一个特殊字符,这个字符我应该是全角的,我把这个字符从数据库种复制出来就能转换,但是直接查询转换的时候,没办法转! 研究了好多天,都没有办法,有没有人知道的? 交流一下? [dbo].f_Convert, --要转换的字符串 @flag bit --转换标志,0转换成半角,1转换成全角 )RETURNS nvarchar(4000) AS BEGIN DECLARE @pat nvarch

C#全角和半角转换

在计算机屏幕上,一个汉字要占两个英文字符的位置,人们把一个英文字符所占的位置称为"半角",相对地把一个汉字所占的位置称为"全角".在汉字输入时,系统提供"半角"和"全角"两种不同的输入状态,但是对于英文字母.符号和数字这些通用字符就不同于汉字,在半角状态它们被作为英文字符处理:而在全角状态,它们又可作为中文字符处理.半角和全角切换方法:单击输入法工具条上的按钮或按键盘上的Shift+Space键来切换. (1)全角--指一个

PostgreSQL全角、半角互相转换

标签 PostgreSQL , 全角 , 半角 , 转换 , ascii , chr , 编码背景转载原文 http://blog.qdac.cc/?p=1289 我们知道,客户许多时候录入数据时,并不注意输入法是否是全角模式,然后就造成输入的内容,有的是全角有的是半角,造成我们做分析统计时的不便,为此,编写相应的函数.当然这个过程应尽量在前台完成,但如果针对已经存在的数据,下面提供的两个函数就比较方便了. 1.全角转换为半角函数 -- 2014,swish,原版首发:http://blog

PHP 全角转半角实现代码_php技巧

复制代码代码如下: /** * 将一个字串中含有全角的数字字符.字母.空格或'%+-()'字符转换为相应半角字符 * @access public * @param string $str 待转换字串 * @return string $str 处理后字串 */ function make_semiangle($str) { $arr = array('0' => '0', '1' => '1', '2' => '2', '3' => '3', '4' => '4','5'

打字输入时全角和半角用法区别

一.什么是全角和半角? 1. 全角:是一种电脑字符,是指一个全角字符占用两个标准字符(或两个半角字符)的位置.全角占两个字节. 汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符.在全角中,字母和数字等与汉字一样占据着等宽的位置. 2. 半角:是指一个字符占用一个标准的字符位置.半角占一个字节. 半角就是 ASCII 方式的字符,在没有汉字输入法起作用的时候,输入的字母.数字和字符都是半角的. 提示每个半角字符只占用一字节的空间(一字节有8位,共256个编

java全角、半角字符的关系以及转换详解_java

如果搞明白了Java中全角字符和半角字符之间的关系那他们之间的转换根本就不是个事. 全角字符与半角字符的关系可以通过下面的程序看看Java中所有字符以及对应编码的值复制代码代码如下: public static void main(String[] args) { for (int i = Character.MIN_VALUE; i <= Character.MAX_VALUE; ++i) { System.out.println(i + &qu