Lua中获取utf8字符串长度的方法和自定义函数_Lua

复制代码代码如下:

--- 获取utf8编码字符串正确长度的方法
-- @param str
-- @return number
function utfstrlen(str)
local len = #str;
local left = len;
local cnt = 0;
local arr={0,0xc0,0xe0,0xf0,0xf8,0xfc};
while left ~= 0 do
local tmp=string.byte(str,-left);
local i=#arr;
while arr[i] do
if tmp>=arr[i] then left=left-i;break;end
i=i-1;
end
cnt=cnt+1;
end
return cnt;
end

lua 的string库不支持处理utf-8编码的汉字。用lua要处理汉字还是很费劲的。

UTF8的编码规则：

1. 字符的第一个字节范围： 0x00—0x7F(0-127),或者 0xC2—0xF4(194-244); UTF8 是兼容 ascii 的，所以 0~127 就和 ascii 完全一致
2. 0xC0, 0xC1,0xF5—0xFF(192, 193 和 245-255)不会出现在UTF8编码中
3. 0x80—0xBF(128-191)只会出现在第二个及随后的编码中(针对多字节编码，如汉字)

这样我们可以利用lua强大的模式匹配，来实现我们要的效果，关键的处理有这么两个：
1. local _, count = string.gsub(str, "[^\128-\193]", ""),用来得到str中的字符数
2. for uchar in string.gfind(str, "[%z\1-\127\194-\244][\128-\191]*") do tab[#tab+1] = uchar end,用来把str中的每个字符映射到tab中

时间： 2024-11-01 16:16:00

Lua中获取utf8字符串长度的方法和自定义函数_Lua的相关文章

Lua获取utf8字符串长度和字符串截取并用...代替

这篇文章主要介绍了Lua获取utf8字符串长度和字符串截取并用...代替,本文直接给出两个函数的实现代码,需要的朋友可以参考下一.LUA获取utf8字符串长度代码如下: --- 获取utf8编码字符串正确长度的方法 -- @param str -- @return number function utfstrlen(str) local len = #str; local left = len; local cnt = 0; local arr={0,0xc0,0xe0,0xf0,0xf

Lua获取utf8字符串长度和字符串截取并用...代替_Lua

一.LUA获取utf8字符串长度复制代码代码如下: --- 获取utf8编码字符串正确长度的方法 -- @param str -- @return number function utfstrlen(str) local len = #str; local left = len; local cnt = 0; local arr={0,0xc0,0xe0,0xf0,0xf8,0xfc}; while left ~= 0 do local tmp=string.byte(str,-left);

PHP获取中英混合字符串长度的方法

今晚在写框架的表单验证类时,需要判断某个字符串长度是否在指定区间内,很自然地,想到了PHP中的strlen函数. .代码如下: $str = 'Hello world!'; echo strlen($str); // 输出12 然而在PHP自带的函数中,strlen及mb_strlen都是通过计算字符串所占字节数来计算长度的,在不同的编码情况下,中文所占的字节数是不同的.在GBK/GB2312下,中文字符占2个字节,而在UTF-8下,中文字符占3个字节. .代码如下: $str = '你好,世

Lua中的元表(metatable)、元方法(metamethod)详解_Lua

终于到了在实际中经常要用到的内容了--元表与元方法. 在第一次看见这两样东西的时候,可能会觉得它很深奥,但其实很好理解,虽然实际上它可能真的很深奥.(小若:停!滚粗.) 1.知道为什么1 + 1 = 2吗? 为什么在Lua中,1+1会等于2呢?(小若:难道除了Lua,其他地方就不等于2了?) 为什么数字和数字相加是合法的,为什么table和table相加就会报错?大家有想过这些问题吗? 没错,规则,这一切都只是规则而已,Lua规定了数字之间可以进行加减乘除,而table之间则不可以. 这是因

C++中可正确获取UTF-8字符长度的函数分享_C 语言

在C++的char*以及string中,使用的是字节流编码,即sizeof(char) == 1. 也就是说,C++是不区分字符的编码的. 而一个合法UTF8的字符长度可能为1-4位. 现在假设一串输入为UTF8编码,如何能准确的定位到每个UTF8字符的"CharPoint",而不会错误的分割字符呢? 参考这个页面:http://www.nubaria.com/en/blog/?p=289 可以改造出下面的函数: const unsigned char kFirstBitMask =

java中计算字符串长度的方法及u4E00与u9FBB的认识_java

字符串采用unicode编码的方式时,计算字符串长度的方法找出UNICODE编码中的汉字的代表的范围"\u4E00" 到"\u9FBB"之间,由于一个汉字代表两个字符所以可以采用如下方法进行计算字符串的长度复制代码代码如下: public static int getCharLength(String content) { int count = 0; for (int i = 0, len = content.length(); i < len; ++i

利用PHP函数计算中英文字符串长度的方法_php技巧

本文实例讲述了利用PHP函数计算中英文字符串长度的方法.分享给大家供大家参考.具体实现方法如下: 一般来说大家知道英文字符占一个字节,而中文字符gbk占两个字符,utf8占三个字符,很多人印象中php计算字符串长度就是strlen()函数,其实不然,它计算的是字节的长度而非字符的长度,那么如何获取一个字符串中字符的长度呢?还有有mb_strlen(). 具体代码如下: 复制代码代码如下: echo $str = 'PHP点点通'; echo strlen($str); //3*1+3*3=1

Android中获取屏幕的长度和宽度

android中获取屏幕的长度和宽度,参考了网上有很多代码,但结果与实际不符,如我的手机是i9000,屏幕大小是480*800px,得到的结果却为320*533 结果很不靠谱,于是自己写了几行代码,亲测一下测试参数: 测试环境: i9000( 三星) 物理屏幕:480*800px density :1.5 测试代码: // 获取屏幕密度(方法1) int screenWidth = getWindowManager().getDefaultDisplay().getWidth(); // 屏

Python中用于处理字符串的center()方法

这篇文章主要介绍了简介Python中用于处理字符串的center()方法,是Python入门中的基础知识,需要的朋友可以参考下 center()方法返回集中在长度宽度的字符串.填充是通过使用specifiedfillchar.默认填充字符是一个空格. 语法以下是center()方法的语法: ? 1 str.center(width[, fillchar]) 参数 width -- 这是字符串的总宽度. fillchar -- 这是填充符. 返回值此方法返回集中在长度宽度的字符串. 例子

猜你喜欢

C++与Java混合编程

本文配套源码现在的程序员,不再像以前一样,掌握一种编程语言就可以混得有模有样了,现实的情况是,真实的项目中,通常是涉及多种编程语言,举几个简单的例子,一个软件为了快速开发,可能是使用Delphi或V ...

NO3第三帝国留言簿制作过程

过程 //显示所有的留言 $conn=mysql_connect("hostname","username","password"); ...

删除子字符串的程序

一个删除子字符串的程序,没有使用C的相关字符串库函数: #include <stdio.h> int del_substr(char *str,char const *substr); i ...

windows server 2008 R2/windows 7管理二十四 SQL2008

本来这篇是打算玩玩服务器功能中的第一个:adrms的,没想到装了几次都安装成功,但是有错误,后来没招了,打算将rms的数据库放到sql 上来折腾折腾,所以为了不让大家觉得突兀,所以本篇介绍sql200 ...

uclinux-2008R1-RC8(bf561)到VDSP5的移植(62)

uclinux-2008R1-RC8(bf561)到VDSP5的移植(62):Failed to open '#include' file 'bf561.h' 在include/asm/mach/bl ...

用Apache Derby、Apache MyFaces和Facelets开发应用程序

什么是 JSF.Facelets 和 Apache Derby? 本文中所演示的用于 Web 应用程序的三种技术是 JSF.Facelets 和 Java Database Connectivity ...

ViewState机制由浅入深3

2.2.4 StateBag类 ViewState是控件的一个属性,用来使用控件具有记忆功能.在前边的讲述中,我们可以看到控件的一些属性通过使用ViewState能够恢复原来的值,保存本次的值,在Co ...

Effective C#原则5：始终提供ToString()

在.Net世界里,用得最多的方法之一就是System.Object.ToStrying()了.你应该为你所有的客户写一个"通情达理"的类(译注:这里是指这个类应该对用户友好). ...

如何保护数据安全

大数据已经渗透到每一个行业和业务职能领域,并逐渐成为重要的生产因素,如何保护数据安全呢? 第一种武器:透明加密软件这里指的加密软件,不是网络上可以随意下载的那种免费的个人级数据安全加密软件.我们通常 ...

移动网页设计中的误区

误区一:手机用户一直忙忙碌碌,并且注意力是比较分散的错.手机不只是在旅途中使用,我们在沙发上也会使用手机,在厨房里也会,当我们在外面临时逗留时更会使用手机.在使用手机的时候,我们可能在处理一些琐碎的 ...

如何为电脑安装Ipv6协议

很多用户都不知道该怎么为自己的电脑安装Ipv6协议,其实这不是个复杂的过程,在这里我们就来看看安装的方法吧! 工具/原料支持IPV6网络. 步骤/方法一.Windows XP 用户可以采用命 ...

Photoshop制作颐和园下的人像光影效果

本教程主要使用Photoshop调出个性的人像曝光效果图,夕阳下的落日余晖,总会在镜头中留下美妙的瞬间.但一味的风景未免单调,用曝光时间变一个小魔术无疑是极好的.本次作者为您带来的是颐和园西堤旁的 ...

更便捷的QQ旋风2.0正式版收藏小技巧

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; QQ旋风2是腾讯公司08年底推出的新一代互联网下载工具 ...

初学者-新手问个问题，望回答？关于学习的方向

问题描述新手问个问题,望回答?关于学习的方向我是一个c++的初学者,尽管入大学之前学过一点c语言,但是在学完c++的基础篇之后我不知道该怎么做才能有效率地进行学习,我希望以后能与界面优化和ui打 ...

邮箱-ajax中如何加入正则表达式

问题描述 ajax中如何加入正则表达式我写的验证方法要不只能验证邮箱存在不存在,要不验证输入是否为空!不能验证邮箱格式是否正确验证邮箱的正则表达式是 /w+@w+.w/ 我的代码是 <scr ...

图像处理-用C++遍历文件夹连续显示的时候，按了控件之后直接显示最后一幅图像，这有可能是什么原因吗？

问题描述用C++遍历文件夹连续显示的时候,按了控件之后直接显示最后一幅图像,这有可能是什么原因吗? 6C 用C++遍历文件夹连续显示的时候,通过控件来控制的,但是按了控件之后直接显示最后一幅图像,这 ...

什么是MTU？为什么MTU值普遍都是1500？

大学那会我玩魔兽世界,我的职业是法师,然后经常有朋友找我我带小号,带小号的方式是冲到血色副本里面把所有怪拉到一起,然后一起用AOE技能瞬间杀掉,在学校玩的时候没什么问题,但是放假在家的时候,我发现每次 ...

请教上海地区可靠的Java培训机构有哪些？

问题描述小弟java编程基础欠佳,曾经自学java数月,进展较慢.想参加java的培训,但对参差不齐的培训机构甚不了解,什么北大青鸟,达内等等..稍有些名气的在网友中的声誉却都不佳,所以我就感到更加 ...

智能车联时代正在到来，从人工驾驶到无人驾驶还有多久?

智能车联时代正在到来,这其中涉及的汽车电子技术包括安全驾驶.通讯导航.视觉智能化以及各种识别技术,信息娱乐和舒适环保技术等.这些市场未来会有多大规模?随着智能车联时代的到来,将诞生哪些新的市场机会?真 ...

Spark搭档Elasticsearch

Spark与elasticsearch结合使用是一种常用的场景,小编在这里整理了一些Spark与ES结合使用的方法. 一. write data to elasticsearch 利用elastics ...

Microsoft Windows Server 2008 Beta 3VHD官方镜像下载_常用工具

微软在下载中心发布了Windows Server 2008 Beta3的下载.本次下载是VHD版本,RAR分卷压缩,大小2.85GB,可以用Virtual Server 2005 R2虚拟机直接运行, ...

我们IT人更要注意的－43个不可不知的健康常识_生活健康

1.常吃宵夜,会得胃癌,因为胃得不到休息. 2.一个星期只能吃四颗蛋,吃太多对身体不好. 3.鸡屁股含有致癌物,不要吃较好. 4.饭后吃水果是错误的观念,应是饭前吃水果. 5.女生月经来时,不要喝绿茶 ...

java Memcache使用详解

Memcached-Java-Client是Memcached官方提供的Java语言访问Memcached的client,使用它可以比较方便地与缓存服务端进行通信.下载地址:https://githu ...

DII—算法服务利器

随着集团内各种离线处理.实时反馈.在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏.但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应 ...

ios-iOS微博分享的内容太多还有参数被微博官方拦截，怎么办，或者怎么将长链接转为短链接

问题描述 iOS微博分享的内容太多还有参数被微博官方拦截,怎么办,或者怎么将长链接转为短链接 iOS微博分享的内容太多还有参数被微博官方拦截,怎么办,或者怎么将长链接转为短链接,或者怎么获取token ...

PHP生成和获取XML格式数据的方法_php技巧

本文实例讲述了PHP生成和获取XML格式数据的方法.分享给大家供大家参考,具体如下: 在做数据接口时,我们通常要获取第三方数据接口或者给第三方提供数据接口,而这些数据格式通常是以XML或者JSON格式 ...

云存储投资增加五步助你消除不必要的费用

云存储是在云计算概念上延伸和衍生发展出来的一个新的概念.云计算是分布式处理.并行处理和网格计算的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算 ...

低功耗or高性能？Intel与ARM的云端之战

Intel与ARM,一个本是PC领域芯片的霸主,一个是新兴http://www.aliyun.com/zixun/aggregation/10574.html">移动领域的灵魂.这两个 ...

puremvc框架之proxy

上一篇 puremvc框架之Command 里,已经学习了如何利用Command来解耦View层与业务逻辑的依赖,但是仍然有二个问题: 1.ButtonMediator中发送消息时,仍然采用硬编码的方 ...

如何建设好网站提高网站的流量（一）

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅如何建设好网站,提高网站的流量,温 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.019 s.