深入下Ruby中的String

Ruby语言中的String是mutable的,不像java、C#中的String是immutable的。比如
       str1="abc"
       str2="abc"
在java中,对于字面量的字符串,jvm内部维持一张表,因此如果在java中,str1和str2是同一个String对象。而在Ruby中,str1和str2是完全不同的对象。同样,在java中对于String对象的操作都将产生一个新的对象,而Ruby则是操纵同一个对象,比如:
       str="abc"
       str.concat("cdf")
此时str就是"abccdf"。Ruby对String是怎么处理的呢?我们只谈谈c ruby中的实现,有兴趣的先看看这篇文章《管窥Ruby——对象基础》。在ruby.h中我们可以看到String对象的结构,Ruby中的对象(包括类也是对象)都是一个一个的struct,String也不能例外:
struct RString {
    struct RBasic basic;
    long len;
    char *ptr;
    union {
      long capa;
      VALUE shared;
    } aux;
};
//ruby.h

    显然,len是String的长度;ptr是一个char类型的指针,指向实际的字符串;然后是一个联合,这个稍后再说。如果你看看ruby.h可以发现,几乎所有定义的对象结构都有一个struct RBasic。显然,struct RBasic包含由所有对象结构体共享的一些重要信息的。看看RBasic:

struct RBasic {
 unsigned long flags;
 VALUE klass;
};
其中的flags是一个多用途的标记,大多数情况下用于记录结构体的类型,ruby.h中预定义了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一个VALUE类型,VALUE也是unsigned long,可以地将它当成指针(一个指针4字节,绰绰有余了),它指向的是一个Ruby对象,这里以后再深入。
    那么联合aux中的capa和shared是干什么用的呢?因为Ruby的String是可变的,可变意味着len可以改变,我们需要每次都根据len的变换来增减内存(使用c中的realloc()函数),这显然是一个很大的开销,解决办法就是预留一定的空间,ptr指向的内存大小略大于len,这样就不需要频繁调用realloc了,aux.capa就是一个长度,包含额外的内存大小。那么aux.shared是干什么的呢?这是一个VALUE类型,说明它是指向某个对象。aux.shared其实是用于加快字符串的创建速度,在一个循环中:

while true do  # 无限重复
a = "str"        # 以“str”为内容创建字符串,赋值给a
a.concat("ing")  # 为a所指向的对象添加“ing”
p(a)             # 显示“string”
end
每次都重新创建一个"str"对象,内部就是重复创建一个char[],这是相当奢侈,aux.shared就是用于共享char[],
以字面量创建的字符串会共享一个char[],当要发生变化时,将字符串复制到一个非共享的内存中,变化针对这
个新拷贝进行,这就是所谓的“copy-on-write"技术。解释了String的内部构造,貌似还没有介绍String是怎么
实现mutable,我们写一个Ruby扩展测试下,我们想写这样一个Ruby类:
class Test
def test
str="str"
str.concat("ing")
end
end
对应的c语言代码就是:

#include<stdio.h>
#include "ruby.h"

static VALUE t_test(VALUE self)
{
  VALUE str;
  str=rb_str_new2("str");
  printf("before concat: str:%p, str.aux.shared:%p, str.ptr:%s"n",str,
       (RSTRING(str)->aux).shared,RSTRING(str)->ptr);
  rb_str_cat2(str,"ing");
  printf("after concat: str:%p, str.aux.shared:%p, str.ptr:%s"n",
       str,(RSTRING(str)->aux).shared,RSTRING(str)->ptr);
  return self;
}
VALUE cTest;
void Init_string_hack(){
  cTest=rb_define_class("Test",rb_cObject);
  rb_define_method(cTest,"test",t_test,0);

}
//string_hack.c

   rb_define_class函数定义了一个类Test,rb_define_method将t_test方法以test的名称添加到Test类。在
t_test中,通过rb_str_new2每次生成一个RString结构,然后通过rb_str_cat2将str与"ing"连接起来,添加
了一些打印用于跟踪。利用mkmf产生Makefile,写一个extconf.rb
require 'mkmf'
create_makefile("string_hack");
执行ruby extconf.rb,将产生一个Makefile,执行make,生成一个string_hack.so的链接库。扩展写完了,通过
ruby调用:
require 'string_hack"
t=Test.new
(1..3).each{|i| t.test}
输出:
before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string
从结果可以看出,在str concat之前之后,str指向的位置没有改变,改变的仅仅是str中ptr指向的字符串的值
,看看rb_str_cat2函数的实现就一目了然了:
VALUE rb_str_cat(str, ptr, len)
    VALUE str;
    const char *ptr;
    long len;
{
    if (len < 0) {
        rb_raise(rb_eArgError, "negative string size (or size too big)");
    }
    if (FL_TEST(str, STR_ASSOC)) {
        rb_str_modify(str);
        REALLOC_N(RSTRING(str)->ptr, char, RSTRING(str)->len+len);
        memcpy(RSTRING(str)->ptr + RSTRING(str)->len, ptr, len);
        RSTRING(str)->len += len;
        RSTRING(str)->ptr[RSTRING(str)->len] = '"0'; /* sentinel */
        return str;
    }
    return rb_str_buf_cat(str, ptr, len);
}
VALUE rb_str_cat2(str, ptr)
    VALUE str;
    const char *ptr;
{
    return rb_str_cat(str, ptr, strlen(ptr));
}
//string.c

文章转自庄周梦蝶  ,原文发布时间2007-09-12 
时间: 2024-08-30 12:12:44

深入下Ruby中的String的相关文章

Ruby中的String对象学习笔记_ruby专题

1.String对象定义 String对象的定义可以使用""和'',对于单纯的字符串,推荐使用''进行定义,效率比""高,""与''的区别在于,''内的字符串定义后就是最终形态,即使如\n换行符,也会原样输出,而""更像是一个表达式,解析器会针对其中的特殊字符进行处理,然后才会输出,如下示例代码: 复制代码 代码如下: i  = 100 s1 = 'The value of i variable is #{i}!\n' #Th

windows下ruby中显示中文的3种方法

A:    1将x.rb编码为ascii格式   2 在x.rb开头加上 #code:gbk或者 #coding:gbk B:    1 将x.rb编码为utf-8格式   2 在x.rb开头加上 #code:utf-8   3 chcp 65001将控制台代码页改为utf-8(OEM GBK为936)   4 将控制台字体改为非点阵字体 C:    1 将x.rb编码为utf-8格式   2 同B.2   3 str = str.encode("gbk")

Ruby中操作字符串的一些基本方法

  这篇文章主要介绍了Ruby中操作字符串的一些基本方法,包括对字符串的压缩和解压缩等处理,需要的朋友可以参考下 在Ruby中的String对象持有和操纵的任意序列的一个或多个字节,通常表示人类语言的字符表示. 简单的字符串文本括在单引号(单引号字符).引号内的文本的字符串值: ? 1 'This is a simple Ruby string literal' 如果需要内放置一个单引号,单引号的字符串文字,在它前面加上一个反斜杠Ruby解释器不认为终止字符串: ? 1 'Won't you r

Ruby中操作字符串的一些基本方法_ruby专题

 在Ruby中的String对象持有和操纵的任意序列的一个或多个字节,通常表示人类语言的字符表示. 简单的字符串文本括在单引号(单引号字符).引号内的文本的字符串值: 'This is a simple Ruby string literal' 如果需要内放置一个单引号,单引号的字符串文字,在它前面加上一个反斜杠Ruby解释器不认为终止字符串: 'Won\'t you read O\'Reilly\'s book?' 反斜杠也可以转义另一个反斜杠,这样第二个反斜杠本身不是解释为转义字符. 以下是

windows下ruby使用tk编程的方法

    我们知道tcl/tk是一个小巧的脚本语言,tk对于跨平台的CUI编程提供了很好的移植性,我们来一下windows下ruby中要想使用tk开发需要做哪些工作: 1 gem query -r tk #选择tk-win 2 gem install -r tk-win 如果需要使用其他图片格式除了require 'tk' 以外,还要 require 'tkextlib\tking'

进一步深入Ruby中的类与对象概念

  这篇文章主要介绍了进一步深入Ruby中的类与对象概念,包括集成与多态等更多知识点的整理,需要的朋友可以参考下 Ruby是纯面向对象的语言,所有项目似乎要Ruby中为一个对象.Ruby中的每个值是一个对象,即使是最原始的东西:字符串,数字甚至true和false.即使是一个类本身是一个对象,它是Class类的一个实例.本章将通过所有功能涉及到Ruby的面向对象. 类是用来指定对象的形式,它结合了数据表示和方法操纵这些数据,转换成一个整齐的包.在一个类的数据和方法,被称为类的成员. Ruby类的

举例初步讲解Ruby中的正则表达式

  这篇文章主要介绍了Ruby中的正则表达式,是Ruby学习进阶当中的重要知识,需要的朋友可以参考下 正则表达式是一个特殊的字符序列可以帮助匹配或者找到其他字符串或串套,使用的模式保持一个专门的语法. 正则表达式文本是一个模式之间的斜线之间或任意分隔符 %r 如下: 语法: 复制代码 代码如下: /pattern/ /pattern/im # option can be specified %r!/usr/local! # general delimited regular expression

详细解析Ruby中的变量

这篇文章主要介绍了详细解析Ruby中的变量,是Ruby学习中最基础的知识之一,需要的朋友可以参考下 变量持有要使用的程序的数据的存储位置. Ruby支持的有五种类型的变量.在前面的章节中已经经历了一个简短描述以及这些变量.本章中介绍的这五种类型的变量. Ruby的全局变量: 全局变量以$开头.未初始化的全局变量的值是零,并使用-w选项产生警告. 全局变量的赋值会改变全局状态.这是不推荐使用全局变量.他们使得程序的含义模糊. 下面是一个例子显示使用全局变量. ? 1 2 3 4 5 6 7 8 9

一分钟了解ruby中的单测

之前用gtest写过很多c++的单测case, 对gtest的强大和灵活印象深刻:最近需要用ruby写一个小工具, 接触了下ruby, 写了代码就要写单测啊(好的单测确实对代码的健壮性和正确性保证上太重要了) 简单搜了下发现 单测是ruby的一部分, 而不像c++等要引用gtest等三方库,简单可依赖,  简单写个例子 代码: module Brtest class Myfile def write(theFile,theCont) _fileName=File.dirname(__FILE__