MySQL源码学习：关于 'A' =='A '的问题

昨天一位同事问到一个问题，他的MySQL中导入数据的时候，发现唯一索引冲突，原因是有两行记录，区别只是有一条记录多了最后的一个空格。希望有方法将他们设置不同。

复现：

CREATE TABLE `t` (
`c` varchar(20) NOT NULL DEFAULT '',
PRIMARY KEY (`c`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk;

insert into t(c) values("A");

insert into t(c) values("A ");

在执行第二个insert的时候，会报主键冲突。

原因：

gbk字符串判断时，用的是这个函数 my_strnncollsp_gbk (strings/ctype-gbk.c)

简单逻辑如下

size_t length= min(a_length, b_length);

int res= my_strnncoll_gbk_internal(&a, &b, length);

#ifndef VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE
  diff_if_only_endspace_difference= 0;
#endif

  if (!res && a_length != b_length)
{
    if (diff_if_only_endspace_difference)
       res= 1;
    ....
}
return  res;

从代码上看，没有什么问题，逻辑是先用比较小的算出长度，然后作字符串对比，此时认为相同。然后根据宏定义，如果没有加编译参数VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE ，则diff_if_only_endspace_difference为0，因此当两个字符串只区别于末尾的空格个数时，认为字符串相同。

（不用担心'A' 和 'AB'对比的情况，省略号部分作了这个判断的）

但是这个在5.0中新增的编译参数并没有用！！

原因是InnoDB在调用这个函数的时候，diff_if_only_endspace_difference传的就是0。

也就是说，你就算加了这个编译参数，行为并没有改变, 没有把这个值设置为1的代码。

方案:

a) 比较优美的方案是是把InnoDB中调用处传入的diff_if_only_endspace_difference，也改成按照VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE 来决定0还是1。

b) 比较简单的方案是将上面代码中的宏定义这段改写成意思相同的ifdef写法，

#ifdef VARCHAR_WITH_DIFF_ENDSPACE_ARE_DIFFERENT_FOR_UNIQUE
  diff_if_only_endspace_difference= 1;
#endif

时间： 2025-01-15 20:24:53

MySQL源码学习：关于 'A' =='A '的问题

MySQL源码学习：关于 'A' =='A '的问题的相关文章

Mysql源码学习笔记偷窥线程_Mysql

MySQL源码学习： concat + outfile的bug 原因分析

MySQL源码学习：ib_logfile、bin-log与主从同步

MySQL源码学习：关于慢查询日志中的Rows_examined=0

MySQL源码学习：InnoDB的ib_logfile写入策略

MySQL源码学习：索引使用统计功能

MySQL源码学习：MySQL中禁止跨库访问的实现

MySQL源码学习：关于整型判断的一个bug

MySQL源码学习：简述InnoDB的BP LRU策略