bitmap处理海量数据及其实现

【什么是Bit-map】
所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。
如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数，我们就只需要8个Bit（1Bytes），首先我们开辟1Byte的空间，将这些空间的所有Bit位都置为0(如下图：)

然后遍历这5个元素，首先第一个元素是4，那么就把4对应的位置为1（可以这样操作 p+(i/8)|(0x01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况，这里默认为Big-ending）,因为是从零开始的，所以要把第五位置为一（如下图）：

然后再处理第二个元素7，将第八位置为1,，接着再处理第三个元素，一直到最后处理完所有的元素，将相应的位置为1，这时候的内存的Bit位的状态如下：

然后我们现在遍历一遍Bit区域，将该位是一的位的编号输出（2，3，4，5，7），这样就达到了排序的目的。下面的代码给出了一个BitMap的用法：排序。

//定义每个Byte中有8个Bit位
#include ＜memory.h＞
#define BYTESIZE 8
void SetBit(char *p, int posi)
{
for(int i=0; i ＜ (posi/BYTESIZE); i++)
{
p++;
}
*p = *p|(0x01＜＜(posi%BYTESIZE));//将该Bit位赋值1
return;
}
void BitMapSortDemo()
{
//为了简单起见，我们不考虑负数
int num[] = {3,5,2,10,6,12,8,14,9};
//BufferLen这个值是根据待排序的数据中最大值确定的
//待排序中的最大值是14，因此只需要2个Bytes(16个Bit)
//就可以了。
const int BufferLen = 2;
char *pBuffer = new char[BufferLen];
//要将所有的Bit位置为0，否则结果不可预知。
memset(pBuffer,0,BufferLen);
for(int i=0;i＜9;i++)
{
//首先将相应Bit位上置为1
SetBit(pBuffer,num[i]);
}
//输出排序结果
for(int i=0;i＜BufferLen;i++)//每次处理一个字节(Byte)
{
for(int j=0;j＜BYTESIZE;j++)//处理该字节中的每个Bit位
{
//判断该位上是否是1，进行输出，这里的判断比较笨。
//首先得到该第j位的掩码（0x01＜＜j），将内存区中的
//位和此掩码作与操作。最后判断掩码是否和处理后的
//结果相同
if((*pBuffer&(0x01＜＜j)) == (0x01＜＜j))
{
printf("%d ",i*BYTESIZE + j);
}
}
pBuffer++;
}
}
int _tmain(int argc, _TCHAR* argv[])
{
BitMapSortDemo();
return 0;
}

【适用范围】

可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下

【基本原理及要点】

使用bit数组来表示某些元素是否存在，比如8位电话号码

【扩展】

Bloom filter可以看做是对bit-map的扩展

【问题实例】

1)已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。（可以理解为从0-99 999 999的数字，每个数字对应一个Bit位，所以只需要99M个Bit==1.2MBytes，这样，就用了小小的1.2M左右的内存表示了所有的8位数的电话）

2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上，在遍历这些数的时候，如果对应位置的值是0，则将其置为1；如果是1，将其置为2；如果是2，则保持不变。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map，都是一样的道理。

bitmap的C语言实现

bitmap.h
/*
*bitmap的c语言实现
*作者：
*时间：
*/
#ifndef _BITMAP_H_
#define _BITMAP_H_
/*
*功能：初始化bitmap
*参数：
*size：bitmap的大小，即bit位的个数
*start：起始值
*返回值：0表示失败，1表示成功
*/
int bitmap_init(int size, int start);
/*
*功能：将值index的对应位设为1
*index:要设的值
*返回值：0表示失败，1表示成功
*/
int bitmap_set(int index);
/*
*功能：取bitmap第i位的值
*i：待取位
*返回值：-1表示失败，否则返回对应位的值
*/
int bitmap_get(int i);
/*
*功能：返回index位对应的值
*/
int bitmap_data(int index);
/*释放内存*/
int bitmap_free();
#endif
bitmap.c
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include "bitmap.h"
unsigned char *g_bitmap = NULL;
int g_size = 0;
int g_base = 0;
int bitmap_init(int size, int start)
{
g_bitmap = (char *)malloc((size/8+1)*sizeof(char));
if(g_bitmap == NULL)
return 0;
g_base = start;
g_size = size/8+1;
memset(g_bitmap, 0x0, g_size);
return 1;
}
int bitmap_set(int index)
{
int quo = (index-g_base)/8 ;
int remainder = (index-g_base)%8;
unsigned char x = (0x1<<remainder);
if( quo > g_size)
return 0;
g_bitmap[quo] |= x;
return 1;
}
int bitmap_get(int i)
{
int quo = (i)/8 ;
int remainder = (i)%8;
unsigned char x = (0x1<<remainder);
unsigned char res;
if( quo > g_size)
return -1;
res = g_bitmap[quo] & x;
return res > 0 ? 1 : 0;
}
int bitmap_data(int index)
{
return (index + g_base);
}
int bitmap_free()
{
free(g_bitmap);
}
测试程序bitmap_test.c：
#include <stdio.h>
#include "bitmap.h"
int main()
{
int a[] = {5,8,7,6,3,1,10,78,56,34,23,12,43,54,65,76,87,98,89,100};
int i;
bitmap_init(100, 0);
for(i=0; i<20; i++)
bitmap_set(a[i]);
for(i=0; i<100; i++)
{
if(bitmap_get(i) > 0 )
printf("%d ", bitmap_data(i));
}
printf("/n");
bitmap_free();
return 0;
}

时间： 2024-12-04 17:14:59

bitmap处理海量数据及其实现的相关文章

解析bitmap处理海量数据及其实现方法分析_C 语言

[什么是Bit-map] 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素.由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省. 如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复).那么我们就可以采用Bit-map的方法来达到排序的目的.要表示8个数,我们就只需要8个Bit(1Bytes),首先我们开辟1Byte的空间,将这些空间的所

[大数据量]BitMap即java.util.BitSet的应用

Bitmap算法, 问题:对40亿个数据进行排序,数据类型为 int,无相同数据. 思考:关于40亿个数据的排序,首先想如何存储呢?一个int 4个字节,也就是160亿个字节,也就是大概有16GB的数据,现在所有的计算机估计没有这么大的内存吧,所以我们就可以文件归并排序,也可以分段读入数据在进行Qsort,但是都需要不停地读入文件,可以想象不停地读取文件硬件操作会有多么浪费时间. 我们这样都是用4个字节来存储了一个数据,在计算机里都是用二进制进行表示, 例如 5 :0000 0000 000

十七道海量数据处理面试题与Bit-map详解

作者:小桥流水,redfox66,July. 前言本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,重新多整理了7道.仅作各位参考,不作它用. 同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题目来源将取自下文中的17道海量数据处理的面试题.因为,我们觉得,下文的每一道面试题都值得重新思考,重新深究与学习.再者,编程艺术系列的前十章也是这么来的.若您有任何问题或建议,欢迎不吝指正.谢谢

[笔试题目] 简单总结笔试和面试中的海量数据问题

最近在笔试和面试中遇到了很多关于海量数据的问题,在此进行简单的记录,写一篇方便自己下次学习的处理海量数据的文章及在线笔记,同时也希望对你有所帮助.当然,海量数据最出名的还是七月July,但这里我是想直接从实际题目出发,并参考及摘抄了他们那些大牛的文章及自己的想法进行简单总结记录. 一. 原题重现 2015年9月27日百度笔试论述题二选一,其中第一道是关于MapReduce相关的:第二道是搜索引擎中url去重,海量数据集url如何在爬取过程中避免重复爬取过的url.

[算法系列之十八]海量数据处理之BitMap

一:简介所谓的BitMap就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素.由于采用了bit为单位来存储数据,因此在存储空间方面,可以大大节省. 二:基本思想我们用一个具体的例子来讲解,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复).那么我们就可以采用BitMap的方法来达到排序的目的.要表示8个数,我们就只需要8个bit(1Bytes). (1)首先我们开辟1字节(8bit)的空间,将这些空间的所有bit位都置为0,如下图: (2

海量数据处理面试题与Bit-map详解

十七道海量数据处理面试题与Bit-map详解作者:小桥流水,redfox66,July. 前言本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,重新多整理了7道.仅作各位参考,不作它用. 同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题目来源将取自下文中的17道海量数据处理的面试题.因为,我们觉得,下文的每一道面试题都值得重新思考,重新深究与学习.再者,编程艺术系列的前十章也是这么来的

海量数据面试题举例

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到. 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题.下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论. 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集

Bitmap在Java中的实现和应用

1.40亿数据排序问题给定一个最多包含40亿个随机排列的32位整数的顺序文件,找出一个不在文件中的32位整数(在文件中至少缺失这样一个数--为什么?).在具有足够内存的情况下,如何解决该问题?(编程珠玑) 2.应用BitMap存储大数据数据的存在性可以使用bit位上的1或0来表示:一个bit具有2个值:0和1,正好可以用来表示false和true. 对于判断"数据是否存在"的场景,我们通常使用HashMap来存储,不过hashmap这个数据结构KEY和Value的保存需要消耗较多的

海量数据,海明距离高效检索(smlar) - 阿里云RDS PosgreSQL最佳实践

标签 PostgreSQL , 海明距离 , smlar , GiST索引背景 http://www.cnblogs.com/lushilin/p/6549665.html SimHash的应用通过上面的步骤,我们可以利用SimHash算法为每一个网页生成一个向量指纹,那么问题来了,如何判断2篇文本的相似性? 这里面主要应用到是海明距离. (1)什么是海明距离两个码字的对应比特取值不同的比特数称为这两个码字的海明距离.在一个有效编码集中,任意两个码字的海明距离的最小值称为该编码集的海明距离

猜你喜欢

PS把帅哥照片处理为阿凡达人物效果教程

最受关注的电影形象,非阿凡达中的纳美人莫属了,通体蓝色发光带有花纹,精灵耳,黄色大瞳孔,扁宽的鼻梁都突破了我们以往对于外星生物的想象,剧情中地球人变换成纳美人的造型也成为网友们争相模仿的新形象. 现在 ...

meta标签的使用方法

meta是用来在HTML文档中模拟HTTP协议的响应头报文.meta 标签用于网页的<head>与</head>中,meta 标签的用处很多.meta 的属性有两种:name和 ...

如何做一个高效的ASP数据库操作程序

程序|数据|数据库 <!-- 蛙蛙推荐:如何做一个高效的ASP数据库操作程序一般情况下我们做的ASP数据库程序都是ADO+ACCESS,并且都是使用一些查询字符串加记录集来操作数据库,最多也只使 ...

SharePoint 2013工作流学习：Visual Studio开发示例

SharePoint 2013引用了WF4.0 Foundation,支持使用Designer和Visio进行设计,但是功能受限,而Visual Studio可以开发功能更加丰富的工作流,下面我们简单 ...

Photoshop打造经典蓝色外景婚片

Photoshop打造经典蓝色外景婚片蓝色婚片调色不太好把握,调成纯蓝色画面会很单调,需要在蓝色中加入一些补色,这样画面才会耐看.调色的时候可以先把图片处理成单色图片,然后慢慢加入其它颜色. 原图 ...

PPt2016如何快速制作动态图表

PowerPoint 2016中,如何快速制作出动态图表. 实际工作中,我们会接触到大量的Excel图表.有时在做工作汇报的时候,需要将Excel图表导入到PPT中.这非常简单,在Excel中选中 ...

创建优雅轻盈的泼墨文字

水墨字制作方法有很多,今天介绍一种比较简单的方法,用液化滤镜来完成,过程简单易上手,效果好得出奇,适合初入门的同学练习,加深对Photoshop各类操作的理解,现在就动手开练吧! 过程:先设置好简 ...

傲游云浏览器记事本试用

在大家所理解的概念,做笔记通常是做在书本上,电脑中.然而现在您完全可以将这些本地记录下来的笔记同步上传到云端,成为一个真正的云记事本了,而且这项功能是由傲游云浏览器提供.当一个浏览器具备了此项功能之后 ...

9158虚拟视频摄像头打不开的解决方法

摄像头无法打开,一般情况下都有如下图提示,摄像头被其他软件占用或者没有链接. 提示问题说明电脑中的虚拟视频软件或者其他的应用软件占用了摄像头.比如mvbox,小懒猫,吉奥等其它虚拟软件. 解决此问 ...

3T盘在内置sata口不识别怎么办

问: 3T盘在内置sata口盘盒格式化,USB外置盘盒不识别,提示格式化!反之也一样. 专家回答: 3T硬盘想要是识别系统必须是64位系统,使用GPT分区模式,不能用MBR分区模式.

Mac专治英语学渣APP哪个好

相信每个人不管是出于工作.学习还是生活的需求,都多多少少会用到电子辞典. Mac 上的辞典 app 并不多,由网易出品的有道词典想必是国内用户相对熟悉的选择.很有可能,你的手机上也已经装着它的移动 ...

JSplitPane的位置设定问题

问题描述用户需求:1.用户在退出时,需要记录当前画面各个控件的位置,再次打开该画面时,需要还原该用户退出时的画面.2.用户可以保存多个[画面状态],打开画面后可以在多个[画面状态]间进行切换.测试中 ...

Ubuntu开机黑屏或花屏解决办法

Ubuntu开机黑屏或花屏解决办法: 开机进入安全模式或叫恢复模式(双系统开机进入第2项(单系统开机时按shift键)-选择root或drop to root shell promot-点击ok) # ...

c语言-C语言素数的编程问题，求大家解答

问题描述 C语言素数的编程问题,求大家解答这些代码编译没有问题,我测试了几个数也没有问题,为什么放到AMC的OJ系统一直说答案错误? 求大家看看谢谢了! 问题要求是输入整数,判断素数如果是就输出 ...

如何使得公司新运营项目的后台只能在局域网访问，第一次问问题，求好心人

问题描述如何使得公司新运营项目的后台只能在局域网访问,第一次问问题,求好心人如何使得公司新运营项目的后台只能在局域网访问,第一次问问题,求好心人解决方案获取访问者的ip地址,是内网的如192. ...

请问 jaxb 里如何去掉命名空间？

问题描述如题:我用jaxb生成了xml文件,但该文件里包含了命名空间,如下<bankPartyIdentificationxmlns:xsi="http://www.w3.org/2 ...

优化策略：网页设计的七大注意事项

由于不同的搜索引擎在网页支持方面存在差异,因此在设计网页时不要只注意外观漂亮,许多平常设计网页时常用到的元素到了搜索引擎那里会产生问题. 框架结构(Frame Sets) 有些搜索引擎(如FAST)是 ...

[Nhibernate]体系结构

引言在项目中也有用到过nhibernate但对nhibernate的认识,也存留在会用的阶段,从没深入的学习过,决定对nhibernate做一个系统的学习. ORM 对象-关系映射(OBJECT/R ...

vc+mapx 添加图元属性，只能添加一个，第二个以后的图元属性添加不了

问题描述 voiddrawelement(doublelon,doublelat,intang){CMapXPointsPnts;//点集对象CMapXFeatureFactoryFeaFac;CMa ...

微软最担心的盗版Vista到底还是堂而皇之的出现在了中关村的柜台上

而且还是能够变成"正版"的版本. 泡泡网近日得到消息,在中关村最近出现了部分攒机商开始提供装机的一站式服务,从硬件到软件,特别的卖点就是Vista的安装.商家号称能够给用户装上正版 ...

wordpress广告垃圾评论过滤(验证码、关键词)

方法一,给评论增加算术验证码在主题目录的functions.php添加如下代码: 代码如下复制代码 //算术验证码by vfhky function spam_provent_m ...

一个没有MYSQL数据库支持的简易留言本的编写_php基础

由于国内MySQL资源比较紧张,国外的不是太慢,就是不对我国用户开放.因此,在没有MYSQL的日子里,我们想做一些方便他人和完善自己站点的事情,那简直比登天还难,为了摆脱这种痛苦,niky哭思冥想,闭 ...

PHP模板之我见

关于PHP的模板的确是一个说起来容易做起来麻烦的事情.随便一数大概有20种以上的选择,光pear里面就包含了5中不同的模板,实在让人头疼. 千万不要人云亦云的说这个好那个不好,选择模板之前最好先应该搞 ...

WPF技术触屏上的应用系列（一）: 3D 图片（照片）墙、柱面墙（凹面墙或者叫远景墙、凸面墙或者叫近景墙）实现

原文:WPF技术触屏上的应用系列(一): 3D 图片(照片)墙.柱面墙(凹面墙或者叫远景墙.凸面墙或者叫近景墙)实现去年某客户单位要做个大屏触屏应用,要对档案资源进行展示之用.客户端 ...

隔夜快照是一个永恒的指标

摘要: 我们每天上网习惯性的会去查询自己网站的一些情况,主要是权重.快照.统计.收录等,相信还有一大部分人会去各个联盟看看自己的收入情况吧,这就是一个习惯,从事网站工作人我们每天上网习惯性的会去查询 ...

盛大陆坚谈创新：从iTunes商店到起点中文网

"2003年,起点中文网和苹果iTunes商店都是在盗版猖獗和一片质疑声中开启了付费分发服务,是典型的"ThinkDifferent"思维."起点2004年被盛 ...

新华社手机电视台与中国电信联合推出

新华网北京10月28日电(记者杨云燕)新华社手机电视台与中国电信28日联合推出第四届中国(北京)国际大学生动画节作品展映.中国电信CDMA用户登录"互联星空"首页,点击" ...

发展还是消亡？云计算的两大对立阵营之战

最近谈论最多的当然是云计算了,而小编有一个很有趣的发现,业内关于云计算已然分为了两大阵营:其中之一是坚定地把云计算当做IT第二春的崇拜者们,他们要求对Google App Engine和Amazon ...

索尼新战略：主动抢占中国市场

"中国是索尼在全球的三大战略市场之一.目前,公司正在全面启动一轮积极主动抢占中国市场的新战略."6月1日,在索尼内部有着"中国通"之称的高桥洋,以索尼(中国)有 ...

php中处理模拟rewrite 效果_php基础

php中处理模拟rewrite 效果<?php $Php2Html_FileUrl = $_SERVER["REQUEST_URI"]; $Php2Html_UrlStrin ...

热搜