Hash哈希(一)

  哈希是大家比较常见一个词语,在编程中也经常用到,但是大多数人都是知其然而不知其所以然,再加上这几天想写一个一致性哈希算法,突然想想对哈希也不是很清楚,所以,抽点时间总结下Hash知识。本文参考了很多博文,感谢大家的无私分享。

基本概念

  Hash,一般翻译做“散列”,也有直接音译为“哈希”的。那么哈希函数的是什么样的?大概就是 value = hash(key),我们希望key和value之间是唯一的映射关系。

  大家使用的最多的就是哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构,通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做哈希函数或散列函数。

  实际中的Hash主要有两种应用:加密和压缩。在加密方面,Hash哈希是把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值,最广泛应用的Hash算法有MD4、MD5、SHA1。在压缩方面,Hash哈希是指把一个大范围映射到一个小范围,往往是为了节省空间,使得数据容易保存。

Hash的特点

  主要原理就是把大范围映射到小范围,因此输入范围必须和小范围相当或者比它更小,否则增加冲突。

  Hash函数逼近单向函数,所以可以用来对数据进行加密。(单项函数:如果某个函数在给定输入的时候,很容易计算出其结果来;而当给定结果的时候,很难计算出输入来)

   不同的应用对Hash函数有着不同的要求:用于加密的Hash函数主要考虑它和单项函数的差距,而用于查找的Hash函数主要考虑它映射到小范围的冲突率。

 Hash算法

  Hash的产生方式大体可以分为三种基本方法:加法、乘法和移位。

  加法哈希是通过遍历数据中的元素然后每次对某个初始值进行加操作,其中加的值和这个数据的一个元素相关。

/********************************
 *加法哈希
 *@key   输入字符串
 *@prime 素数
 ********************************/
int additiveHash(string key, int prime)
{
    int hash, i;
    for(hash = key.length(), i = 0; i < key.length(); ++i)
    {
        hash += int(key.at(i));
    }
    return (hash%prime);
}

  乘法哈希是通过遍历数据中的元素然后每次对初始值进行乘法操作,其中乘的值无需和数据有关系。

/********************************
 *乘法哈希
 *@key   输入字符串
 *@prime 素数
 ********************************/
int bernstein(string key)
{
    int hash, i;
    for(hash = 0, i = 0; i < key.length(); ++i)
    {
        hash = 33*hash + int(key.at(i));
    }
    return hash;
}

/********************************
 *32位FNV算法(乘法)
 *@key   输入字符串
 *@prime 素数
 ********************************/
int M_SHIFT = 0;
int M_MASK = 0x8765fed1;
int FNVHash(string key)
{
    int hash = (int)2166136261L;
    for(int i = 0; i < key.length(); ++i)
    {
        hash = (hash * 16777619)^int(key.at(i));
    }
    if(M_SHIFT == 0)
        return hash;
    return (hash ^ (hash >> M_SHIFT)) & M_MASK;
}

  在JAVA中,哈希函数使用的就是乘法哈希:

/**
 * JAVA自己带的算法
 */
public static int java(String str) {
    int h = 0;
    int off = 0;
    int len = str.length();
    for (int i = 0; i < len; i++)
    {
        h = 31 * h + str.charAt(off++);
    }
    return h;
}

  移位哈希是通过遍历数据中的元素然后每次对初始值进行移位操作。

/********************************
 *旋转哈希(移位)
 *@key   输入字符串
 *@prime 素数
 ********************************/
int rotatingHash(string key, int prime)
{
    int hash, i;
    for(hash = key.length(), i = 0; i < key.length(); ++i)
    {
        hash = (hash << 4)^(hash >> 28)^int(key.at(i));
    }
    return (hash%prime);
}

  实际情况下,很多哈希函数都是包含加法、乘法和移位操作来实现的,例如MD5。

问题

  为什么prime的取值是素数? 有科学依据么? 有待验证

    有人是这样说的取素数,可以降低碰撞的概率。但是并没有很好的说明原因,如果哪位有想法希望能留下您的想法,分享给大家。


本文 由 cococo点点 创作,采用 知识共享 署名-非商业性使用-相同方式共享 3.0 中国大陆 许可协议进行许可。欢迎转载,请注明出处:
转载自:cococo点点 http://www.cnblogs.com/coder2012

时间: 2024-09-10 14:34:02

Hash哈希(一)的相关文章

Ruby中的Hash哈希类型基本操作方法小结_ruby专题

1.创建哈希:就像创建数组一样,我们可以通过Hash类来创建一个Hash实例: h1 = Hash.new #默认值为nil h2 = Hash.new("This is my first hash instance") #默认值为" This is my first hash instance": 上面两个例子都创建了一个空的Hash实例.一个Hash对象总是有一个默认的值--因为如果在一个Hash对象里没有找到指定的索引(key),将会返回默认值. 创建了Has

Ruby中Hash哈希结构的基本操作方法小结_ruby专题

关于哈希先来了解一下Hash的基本思路: 设要存储对象的个数为num, 那么我们就用len个内存单元来存储它们(len>=num); 以每个对象ki的关键字为自变量,用一个函数h(ki)来映射出ki的内存地址,也就是ki的下标,将ki对象的元素内容全部存入这个地址中就行了.这个就是Hash的基本思路. 为什么要用一个函数来映射出它们的地址单元呢? 假设现在我要存储4个元素 13 7 14 11 显然,我们可以用数组来存.也就是:a[1] = 13; a[2] = 7; a[3] = 14; a[

hash 哈希值-java实现.net中的哈希值计算

问题描述 java实现.net中的哈希值计算 在.net 中有 HashAlgorithm.Create(""SHA1"").ComputeHash(data) 来计算字节数组的哈希值,返回字节数组,请问在java中该如何实现同样的功能 解决方案 http://www.micmiu.com/lang/java/java-md5-sha1/ 解决方案二: java的serversocket.net实现方式

Perl 哈希Hash用法之入门教程_perl

一.什么是Perl Hash 哈希是一种数据结构,和数组类似,可以将值存放到其中,或者从中取回值.但是,和数组不同的是,其索引不是数字,而是名字.也就是说,索引(这里,我们将它叫key)不是数字而是任意的唯一的字符串. key可以是任意的字符串,你可以使用任何的字符串作为key,但它们是唯一的.另一种思考hash 的方法是,把它看作一堆数据(a barrel of data),每一个数据都有一个相应的标签.可以通过标签访问此标签对应的元素.但其中是没有"第一个"元素的概念的.在数组中,

纸上谈兵: 哈希表 (hash table)

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢!   HASH 哈希表(hash table)是从一个集合A到另一个集合B的映射(mapping).映射是一种对应关系,而且集合A的某个元素只能对应集合B中的一个元素.但反过来,集合B中的一个元素可能对应多个集合A中的元素.如果B中的元素只能对应A中的一个元素,这样的映射被称为一一映射.这样的对应关系在现实生活中很常见,比如: A  -> B 人 -> 身份证号 日期 ->

浅谈算法和数据结构 十一 哈希表

在前面的系列文章中,依次介绍了基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况下的时间复杂度: 可以看到在时间复杂度上,红黑树在平均情况下插入,查找以及删除上都达到了lgN的时间复杂度. 那么有没有查找效率更高的数据结构呢,答案就是本文接下来要介绍了散列表,也叫哈希表(Hash Table) 什么是哈希表 哈希表就是一种以 键-值(key-indexed) 存储数据的结构,我们只要输入待查找的值即key,即可查找到其对应的值. 哈希的思路很简单

详解Java中用于查找对象哈希码值的hashCode()函数_java

理解hashCode() 的作用是获取哈希码,也称为散列码:它实际上是返回一个int整数.这个哈希码的作用是确定该对象在哈希表中的索引位置. hashCode() 定义在JDK的Object.java中,这就意味着Java中的任何类都包含有hashCode() 函数. 虽然,每个Java类都包含hashCode() 函数.但是,仅仅当创建并某个"类的散列表"(关于"散列表"见下面说明)时,该类的hashCode() 才有用(作用是:确定该类的每一个对象在散列表中的位

通过分区(Partition)提升MySQL性能

今天这么激动又想写文章的原因是MySQL5.1的发布带来了设计超强动力数据库的强有力的武器,任何MySQL的DBA都应该尽快学习并使用它.我觉得如果­能很好滴使用这个5.1版带来的新特性,DBA可以使自己管理的VLDB(不知道什么是VLDB?告诉你,是好大好大的数据库的意思,Very Large DB)或数据仓库奇迹般的获得巨大的性能提升. 什么是数据库分区? 数据库分区是一种物理数据库设计技术,DBA和数据库建模人员对其相当熟悉.虽然分区技术可以实现很多效果,但其主要目的是为了在特定的SQL操

Oracle partition表分区与分区索引

介绍: 对于10gR2 而言,基本上可以分成几类: Range(范围)分区 Hash(哈希)分区 List(列表)分区 以及组合分区:Range-Hash,Range-List. 准备环境: --1.建三个表空间 SQL> create tablespace par01 datafile 'e:\oracle\test\par01.dbf' size 10m ; SQL> create tablespace par02 datafile 'e:\oracle\test\par02.dbf' s