2.3 使用同义词映射保持一致性
不一致性是数据中的一个常见问题。有时一个字符是大写的,有时不是,有时是缩写,有时不是,有时还有拼写错误。
在一个开放的域中,如随意拼写的单词,问题就较为复杂。然而,当数据代表一个有限的词库(如美国的州名)时,使用一些小技巧就可以解决。一个从普通形式或者错误形式到标准形式的映射是修正域内变量的一种简单办法。
2.3.1 准备工作
使用如下表达式确保clojure.string/upper-case函数可用:
2.3.3 实现原理
本方法中唯一的波折是需要对输入稍微进行一下标准化,即确保在其使用同义词映射前是大写形式。否则,需要为输入可能变化的每种形式设定入口。
时间: 2024-10-29 09:22:57