《高阶Perl》——3.7 键的生成

3.7 键的生成

先前的记忆器至少有一个严重的问题。它需要把函数的参数转变成一个散列键,它的做法是使用join:

my $key = join ',', @_;

这对只带一个参数的函数有效,也对参数不含逗号的函数有效,包括所有的参数是数字的函数。但是如果函数的参数可能包含逗号,它可能失效,因为以下两个调用却计算出了相同的键:

func("x,", "y");
func("x", ",y");

第一次调用,返回的值将以键"x,,y"存放在缓存里。当第二次调用时,没有运行真实的函数。而第一次调用的缓存的值将返回。但是函数本可能想要返回一个不同的值的,记忆术的代码混淆了这两个参数列表,导致一次错误的缓存命中。

由于这只会对那些参数包含逗号的函数失效,这可能不是考虑要点。即使函数的参数包含逗号,也有可能有些它们绝不会包含的字符。Perl的特殊变量$;有时用在这里。它通常包含字符#28,即控制-反斜杠字符。如果键生成器使用join $;, @_,它只会在函数的参数包含控制-反斜杠时失效,一般可以确定这点将不会发生。但是经常有一个函数所带的参数会包含任何字符,这些不完整的特技不会可靠地工作。

这个可以被修正,因为总是有一种可靠的方法把任何数据结构,如这样一个参数列表,转换成一个字符串,那么不同的结构变成不同的字符串。

一个策略是使用模块Storable或FreezeThaw把参数列表转换成一个字符串。一个更有效率的策略是使用转义序列:

my @args = @_;
s/([\\,])/\\$1/g for @args;
my $key = join ",", @args;

这里在原始参数的每个逗号或反斜杠前面都插入一个反斜杠,然后用不带反斜杠的逗号连接在一起。先前看到的问题调用也不再是问题了,因为两个参数列表转换成不同的键了:一个是'x\,,y',另一个是'x,\,y'。(一个练习:为什么在每个反斜杠前面也要像在逗号前面一样放置一个反斜杠呢?)

然而,正确性是用昂贵的性能代价换来的。转义字符代码比简单的join慢得多,大约慢十倍,即使对一个简单的参数列表如(1,2),且它在每次调用函数时都必然会执行的。平常,我们嘲笑那些想用正确性交换速度的人,因为不管找到错误答案的速度多快都没有意义。但这是一个不平常的情况。因为记忆术的唯一目的就是加速一个函数,使开销尽可能小。

采取折中。memoize的默认行为将是快速的,但并不是在所有情况下都正确的。给memoize的用户一个应急出口修正。如果用户不喜欢默认的键生成方法,他们可以提供一个替代者,memoize将使用这个。

改变是简单的:

### Code Library: memoize-norm1
sub memoize {
  my ($func, $keygen) = @_;
  my %cache;
  my $stub = sub {
    my $key = $keygen ? $keygen->(@_) : join ',', @_;
    $cache{$key} = $func->(@_) unless exists $cache{$key};
    return $cache{$key};
  };
  return $stub;
}

被memoize返回的存根会检查原始函数带记忆时是否提供了$keygen函数。如果提供了,它就用这个keygen函数构造散列键;如果没有提供,它就用默认的方法。额外的测试相当便宜,但如果想对$keygen执行一次测试,在函数带记忆的时候,而不是每次调用带记忆的函数都来一次,那么就可以消除这额外的测试:

### Code Library: memoize-norm2
sub memoize {
  my ($func, $keygen) = @_;
  my %cache;
  my $stub = $keygen ?
    sub { my $key = $keygen->(@_);
          $cache{$key} = $func->(@_) unless exists $cache{$key};
          return $cache{$key};
        }
  :
    sub { my $key = join ',', @_;
          $cache{$key} = $func->(@_) unless exists $cache{$key};
          return $cache{$key};
        }
  ;
  return $stub;
}

可以有一个更棒的戏法。在memoize的这些版本中,$keygen是一个匿名函数,不得不在带记忆的函数每次调用时执行。不幸的是,Perl在函数调用上有相对大的开销,且由于memoize的目的是加快速度,如果能做到,则希望避免这个开销。

Perl的eval特性出现了。不再指定$keygen作为指向一个键生成函数的引用,传递一个字符串以包含生成键的代码,并把这代码直接合并入存根,而不是作为一个存根必须调用的子函数。

要使用这个版本的memoize,声明如下:

$memoized = memoize(\&fib, q{my @args = @_;
                             s/([\\,])/\\$1/g for @args;
                             join ',', @args;
                            });

memoize将把这一点代码插入带记忆的函数的模板里的合适位置(这称为内联(inlining))并使用eval把结果编译成一个真实的函数:

### Code Library: memoize-norm3
sub memoize {
  my ($func, $keygen) = @_;
  $keygen ||= q{join ',', @_};

  my %cache;
  my $newcode = q{
    sub { my $key = do { KEYGEN };
          $cache{$key} = $func->(@_) unless exists $cache{$key};
          return $cache{$key};
        }
  };
  $newcode =~ s/KEYGEN/$keygen/g;
  return eval $newcode;
}

这里使用Perl的q{...}操作符,除了单引号在q{...}里不再是特殊字符了,其他和'...'一样。q{...}结构在第一个匹配的}字符处结束。如果这里没有使用q{...},第三行会相当晦涩难懂:

  $keygen ||= 'join \',\', @_';

用s///操作符内联$keygen的值,而不是简单地把它插入一个双引号字符串。这有一点效率损失,但是这只需要对每个带记忆的函数执行一次,所以这大概没关系。用s///技巧的好处是,$newcode变量很容易阅读;如果使用了字符串内插,它就会是如下这样的:

  my $newcode = "
    sub { my \$key = do { $keygen };
          \$cache{\$key} = \$func->(\@_) unless exists \$cache{\$key};
          return \$cache{\$key};
        }
  ";

代码里挤满了反斜杠。维护程序员阅读时可能不会注意到$keygen也被插值了,即便所有别的东西都带反斜杠了。使用s///技巧,KEYGEN显得清楚了。

对这个例子,缓存管理的开销比memoize内联的版本低大约37%。

很容易把这个版本稍微调整成和之前的一样仍然接受一个函数引用:

### Code Library: memoize-norm4
sub memoize {
  my ($func, $keygen) = @_;
  my $keyfunc;
  if ($keygen eq '') {
    $keygen = q{join ',', @_}
  } elsif (UNIVERSAL::isa($keygen, 'CODE')) {
    $keyfunc = $keygen;
    $keygen = q{$keyfunc->(@_)};
  }
  my %cache;
  my $newcode = q{
    sub { my $key = do { KEYGEN };
          $cache{$key} = $func->(@_) unless exists $cache{$key};
          return $cache{$key};
        }
  };
  $newcode =~ s/KEYGEN/$keygen/g;
  return eval $newcode;
}

这里,如果没有提供键生成器,则照常内联join ',', @_ 。如果$keygen是一个函数引用,则不能简单地内联它,因为它会变成像CODE(0x436c1d)的无用的东西。而是把函数引用保存在$keyfunc变量里,并内联一些将通过$keyfunc调用函数的代码。

这行代码UNIVERSAL::isa($keygen, 'CODE')需要解释一下。若要测试$keygen是否是一个代码引用。明显的做法如下:

if (ref($keygen) eq 'CODE') { ... }

不幸的是,Perl的ref函数失效了,因为它混淆了它的参数的两个不同的属性。如果$keygen是一个bless过的代码引用,上面的测试将会失败,因为ref将返回$keygen被bless的类名。使用UNIVERSAL::isa就避免了这个问题。也有可能,尽管可能性不大,那个测试会对一个非代码引用产生真;这会发生在如果有人愚蠢到把非代码引用bless进CODE类的情况下。

3.7.1 用户提供的键生成器的更多应用

有了这些键生成的功能,memoize函数的用户就有了一个应急出口,如果join方法没有尝试使带记忆的函数正确工作。他们可以以一个基于Storable的键生成器代替,或转义字符方法或合适的无论什么东西。

用户提供的键生成器解决了当两个不同的参数列表被弄成相同的键时出现的问题。它也解决了相反的问题,即当两个等价的参数列表被弄成不同的键时出现的问题。

考虑一个函数的参数是一个散列,可能包含键A、B和C中的任何一个或全部或一个都有没有,每个键关联一个数值。此外,假设如果B被省去,那B的默认值是17,A的默认值是32:

sub example {
  my %args = @_;
  $args{A} = 32 unless defined $args{A};
  $args{B} = 17 unless defined $args{B};
  # ...
}

那么以下调用都是等价的:

example(C => 99);
example(C => 99, A => 32);
example(A => 32, C => 99);
example(B => 17, C => 99);
example(C => 99, B => 17);
example(A => 32, C => 99, B => 17);
example(B => 17, A => 32, C => 99);
(etc.)

键的构造的join方法对这些调用产生不同的键("C,99"对"A,32,C,99"对"C,99,A,32"等)。因此缓存管理将错过避免调用真实的example()函数的机会。调用一次example(A =>32,C =>99)必然和调用一次example(C =>99, A =>32)的结果一样,但是缓存管理不知道这个,因为参数列表看上去不一样。如果能安排等价的参数列表能转换成相同的散列键,那么缓存管理将对example(C =>99, A =>32)返回之前已经计算过的example(A =>32, C =>99)相同的结果,而不再冗余调用example()。这将增加缓存命中率,公式hfK中的h,该公式表现了记忆术带来的加速。下面的键生成器掌握了诀窍:

sub {
  my %h = @_;
  $h{A} = 32 unless defined $h{A};
  $h{B} = 17 unless defined $h{B};
  join ",", @h{'A','B','C'};
}

八个等价的调用(如example(c =>99,A =>22)就是其中之一)从这个函数得到同一个键"32,17,99"。预付的代价是:这个键生成器比简单的join生成器慢十倍,所以公式hfK里的K就更大。这个代价能否弥补回来,依赖于真实函数调用的开销f多大,也依赖于缓存命中率h的提升幅度。通常,基准比较测试是没有替代物的。

3.7.2 内联的参数归一化的缓存管理

这里有一个有趣的技巧,可以与内联的键生成代码。考虑下面的函数例子的一个变体:

sub example {
  my ($a, $b, $c) = @_;
  $a = 32 unless defined $a;
  $b = 17 unless defined $b;
  # more calculation here ...
}

一个合适的键生成器如下:

  my ($a, $b, $c) = @_;
  $a = 32 unless defined $a;
  $b = 17 unless defined $b;
  join ',', $a, $b, $c;

有点让人不快的是不得不重复设置参数默认值的代码,同样令人不快的是不得不运行两次。如果改变键生成如下代码,就能把参数检查从实例函数中移除:

$_[0] = 32 unless defined $_[0];
$_[1] = 17 unless defined $_[1];
join ',', @_;

当这个被内联入memoize函数时,结果如下:

sub { my $key = do { $_[0] = 32 unless defined $_[0];
                     $_[1] = 17 unless defined $_[1];
                     join ',', @_;
                   };
      $cache{$key} = $func->(@_) unless exists $cache{$key};
      return $cache{$key};
    }

注意这里会发生什么。键和以前一样生成,但有个边界效应:@_被改变了。如果有一个缓存脱靶,带记忆的函数就会以改变了的@_调用$func。由于@_已经被改变了包含默认的值,可以从原始函数省略设置默认值的代码:

sub example {
  my ($a, $b, $c) = @_;
## defaults set by key generation code
##  $a = 32 unless defined $a;
##  $b = 17 unless defined $b;
  # more calculation here ...
}

当然,一旦这样修改了example函数,就不能关闭记忆术了,因为本质的功能已经被移入键生成器了。

这项技术的另一个危险之处是改变@_会有个特殊效应返回调用的函数里。@_的元素被化名成回到主调者的相应的参数,在带记忆的函数里对@_元素的赋值可以改变在带记忆的函数外部的变量。这里有一个简单的例子:

sub set_to_57 {
  $_[0] = 57;
}

my $x = 119;
set_to_57($x);

它会把$x设成57,就像赋值$x = 57一样,即使赋值是在$x的作用域外执行的,$x不应受影响。在键生成器代码里的赋值有类似的功能。

Perl的这个特性有时是有用的,但多数情况下麻烦多于用处,通常应避免它。可以不直接操作@_,而是当函数被调用时,就把它的内容复制给一连串词法变量:

sub safe_function {
  my ($n) = @_;
  $n = 57; # does not set $x to 57
}

my $x = 119;
safe_function($x);

通过组合这些技术,可以得到一版键生成代码,它除去了真实函数中设置默认值的代码的需求,而且仍然是安全的:

memoize(\&example, q{
  my ($a, $b, $c) = @_;
  $a = 32 unless defined $a;
  $b = 17 unless defined $b;
  @_ = ($a, $b, $c);           # line 5
  join ',', @_;
});

@_的元素是回到主调函数的参数的别名,但是@_本身不是。第5行对@_的赋值不会覆盖主调者的值,它完全丢弃了别名并以新的值替代@_的内容。这个技巧只在键生成代码被内联入带记忆的函数时才有效;如果键生成代码是以子例程被调用,那么@_的改变在子例程返回后没有效果。

3.7.3 带有引用参数的函数

定制的键生成器的特性解决了另一个问题。考虑如下函数:

sub is_in {
  my ($needle, $haystack) = @_;
  for my $item (@$haystack) {
    return 1 if $item == $needle;
  }
  return;
}

函数接受$needle,即一个数字,以及$haystack,即一列数字,当且仅当$haystack包含$needle时返回真。一个典型的调用如下:

if (is_in($my_id, \@employee_ids)) { ... }

如果想要尝试使is_in带记忆,但是一个可能的问题是参数$haystack是一个引用。当它被join函数处理时,它变成一个像ARRAY(0x436c1d)的字符串。如果后来以指向一个别的具有相同内容的数组的参数$haystack调用is_in(),散列键将会不一样,这可能不是所需要的;相反,如果@employee_ids的内容改变了,散列键仍然是相同的,这肯定不是想要的。键生成器依照数组的同一性产生键,然而is_in()函数不关心数组的同一性,它只关心内容。这种情况下一个更合适的键生成函数是:

sub { join ",", $_[0], @{$_[1]} }

同样的,这实际上是否能带来性能优势依赖许多很难预见的情形。当性能很重要时,根本在于掌握真实的数据。长期的实践显示即便专家也时常猜错哪个快哪个慢。

3.7.4 划分

第1章的find_share函数提供了一个合适的函数的例子:记忆术修正了慢的递归,也需要一个定制的键生成器:

sub find_share {
  my ($target, $treasures) = @_;
  return [] if $target == 0;
  return    if $target < 0 || @$treasures == 0;
  my ($first, @rest) = @$treasures;
  my $solution = find_share($target-$first, \@rest);
  return [$first, @$solution] if $solution;
  return         find_share($target       , \@rest);
}

就像你将回忆起的,这个函数接受一个宝物数组和一个目标值,并尝试选出一组宝物的价值总和正好是目标值。如果有这么一组,它就返回一个只含这些宝物的数组;如果没有,它就返回undef。

第1章的这个函数有个和fib函数一样的问题:它会很慢,因为它一遍又一遍地重复同样的工作。当尝试从1 2 3 4 5 6 7 8 9 10中选出总和是53的宝物,find_share两次到达同样的位置:它发现1+2+3+6=12,并执行find_share(41, [7,8,9,10]),最终返回未定义值。后来,它又发现1+2+4+5=12,并第二次执行find_share(41, [7,8,9,10])。显然,这是一个尝试缓存的好机会。

即使这个简单的例子,记忆术也产生了大约68%的速度提升。对于更大的例子,如find_share(200, [1..20]),速度的提升更大,大约82%。在有些例子里,记忆术能区分实用的和不实用的算法。不带记忆的find_share(210, [1..20])比带记忆的版本耗时长几千倍。(我使用了键生成函数 sub {join "-", @{$_[1]}, $_[0]}。)

3.7.5 为非纯函数定制的键生成

定制的键生成也能用来处理这类函数,后者依赖它们参数以外的信息。
考虑一个长时间运行的网络服务程序,它的工作是卖东西,如披萨或武器级钚。一份披萨或一罐钚的价格包括运费,后者与相应的钟点和星期有关。晚上和周末发货比较贵,因为发货工人更少,且没人乐意在早上3点工作。这个服务程序可能包含一个如下这样的函数:

### Code Library: delivery-charge
sub delivery_charge {
  my ($quantity_ordered) = @_;
  my ($hour, $day_of_week) = (localtime)[2,6];
  # perform complex computation involving $weight, $gross_cost,
  #      $hour, $day_of_week, and $quantity_ordered
  # ...
  return $delivery_charge;
}

因为这个函数是复杂的,所以想要使其带记忆。默认的键生成器,join(',', @_),在这里是不适合的,因为这将失去运费的时间依赖性。但是用这样的一个定制的键生成函数,可以简单解决问题:

sub delivery_charge_key {
  join ',', @_, (localtime)[2,6];
}

delivery_charge不是一个纯函数,但在这个例子里无关紧要。唯一的真正的问题是,是否有足够的缓存命中率赢得性能。可以预见函数在第一周会有许多缓存脱靶,直到一周过去,然后开始看到更多的缓存命中。在这个例子里,缓存的效能可能就依赖程序运行的寿命了。类似地,可能在想下面的键生成函数会更好:

sub delivery_charge_key {
  my ($hour, $day_of_week) = (localtime)[2,6];
  my $weekend = $day_of_week == 0 || $day_of_week == 6;
  join ',', @_, $hour, $weekend;
}

这个函数运行时间更长,但是可能得到更多的缓存命中率,因为它认识到周一缓存的值可以被再次用在周二和周三。同样的,哪个更好将取决于程序行为里的微妙因素。

时间: 2024-12-23 06:01:22

《高阶Perl》——3.7 键的生成的相关文章

《高阶Perl》——导读

前 言 在编程圈子里有一句著名的俗语,一个优秀的Fortran程序员可以用任何语言写Fortran程序.然而,让人悲哀的是,不管他们是否愿意,Fortran程序员用任何语言写Fortran程序.类似地,作为Perl程序员,我们也在用Perl写C程序,不管我们是否愿意.这让人羞愧,因为Perl是一门比C更富有表现力的语言.我们本可以做得更好,以C程序员梦想不到的方式使用Perl,但是我们没有那样做. 怎么会这样呢?Perl的设计初衷是一方面作为C的替代品,另一方面作为UNIX脚本语言(如Bourn

《高阶Perl》——3.3 好主意

3.3 好主意 既优秀又简单的主意不太多,能到处使用的非常少.缓存技术是其中之一.网页浏览器缓存了从网络取回的文档.当第二次要求同一个文档时,浏览器从本地磁盘或内存取回缓存了的副本,这很快,不用再次下载.域名服务器缓存了它从远端服务器收到的回复.当第二次搜索同样的名字时,本地服务器已经准备好了回复而不必进行可能耗时的网络通信了.当操作系统从磁盘读取数据时,它可能把数据缓存在内存里,以防该数据被再次读取:当CPU从内存获取数据时,它把数据缓存在特殊的缓存内存里,它比普通的主存更快. 缓存技术在真实

《高阶Perl》——3.5 MEMOIZE模块

3.5 MEMOIZE模块 本书不是关于Perl模块的内部细节的,而是关于一些Memoize模块内部使用的并和稍后要做的事情有直接联系的技术,所以现在简短地介绍一下. Memoize得到一个函数名(或引用)作为它的参数.它制造一个新的函数,后者维护一个缓存并在其中查找它的参数.如果新的函数在缓存里找到了参数,就返回缓存的值:如果没找到,就调用原始函数,把返回的值保存入缓存,并把它返回给原始的主调者. 制造完这个新的函数,Memoize就把它装入Perl的符号表以代替原始的函数,那样当你认为你在调

《高阶Perl》——3.2 内联缓存

3.2 内联缓存 给一个函数添加缓存的最直接的方式就是给函数一个私有的散列.在这个例子里,可以使用一个数组代替散列,因为fib()的参数总是一个非负整数.但是一般需要使用一个散列,那么将会看到: ### Code Library: fib-cached # Compute the number of pairs of rabbits alive in month n { my %cache; sub fib { my ($month) = @_; unless (exists $cache{$m

《高阶Perl》——3.10 可供选择的记忆术

3.10 可供选择的记忆术 大多数纯函数提供一个缓存的机会.尽管乍一看纯函数很少,它们只以一定频率出现.纯函数特别普遍的地方是在排序中用做比较器函数. Perl内置的sort操作符是通用的,它可以把一列任何种类的数据以程序要求的任何次序排序.默认状态下,它把一列字符串以字母表次序排序,但是程序员可以任意提供一个比较器函数(comparator function),告诉Perl怎样重排sort的参数列表.比较器函数被反复调用,每次带有待排序列表中的两个不同元素,如果两个元素次序正确,就必须返回一个

《高阶Perl》——第2章 分配表 2.1 配置文件处理

第2章 分 配 表 第1章介绍了如何用别的函数参数化函数的行为使函数更加灵活.例如,并没有把每次移动盘子就输出一条消息硬编码到hanoi()函数里,而是让其调用一个从外部传入的辅助函数.通过提供一个合适的辅助函数,可以使hanoi()输出一系列说明,或检查它自己的行动,或生成一个图形显示,而不必重新编写基本的算法.类似地,可以从total_size()函数的计算文件大小的行为中提取出目录遍历行为,得到一个更有价值和普遍适用的dir_walk()函数,它可以做许多不同的事情. 为了从hanoi()

《高阶Perl》——3.8 对象方法里的缓存

3.8 对象方法里的缓存 对象方法,它经常不理解地把缓存的值保存在独立的散列里.考虑一个投资银行写的程序里的Investor对象.该对象表现了银行的一个客户: package Investor; # Compute total amount currently invested sub total { my $self = shift; # ... complex computation performed here ... return $total; } 如果$total不会改变,就可以缓存

《高阶Perl》——1.4 层次化数据

1.4 层次化数据 已经介绍的例子显示了递归过程的风采,但是它们遗漏了重要的一点.在介绍汉诺塔问题时,我说过当你想解决的问题可以简化成同样问题的更简形式时,递归是很有用的.但是这样的问题是普遍的这一点可能不清楚. 多数递归的函数是为处理递归的数据结构的建立.一个递归的数据结构就像一个列表.一棵树或者一个堆,它们根据相同数据结构的更小的实例定义而成.最常见的例子可能是文件系统目录结构.文件可以是: 文件可以是一个目录,含有一列文件,其中的一些可以是目录,再含有另一些文件,以此类推.处理这样的结构最

《高阶Perl》——3.6 CAVEATS

3.6 CAVEATS (这是拉丁文的"警告".) 显然,记忆术不适合所有的性能问题.它甚至不适合所有的函数.有几类函数就不应该带记忆. 3.6.1 返回值不依赖参数的函数 记忆术最适合那些返回值只依赖它们的参数的函数.想象一下使时间函数带记忆的愚蠢:第一次你调用它,你将得到时刻,随后的调用将会返回一样的时刻.类似地,想象一个带记忆的随机数生成器是多么固执. 或者想象一个返回值是指示某类成功或失败的函数.你不会希望这类函数是带记忆的,每次被调用都返回同一个值. 然而,记忆术适合一些这样