mahout系列：minhash聚类

Map:

Vector featureVector = features.get();
    if (featureVector.size() < minVectorSize) {
      return;
    }
    // Initialize the MinHash values to highest
    for (int i = 0; i < numHashFunctions; i++) {
      minHashValues[i] = Integer.MAX_VALUE;
    }

    for (int i = 0; i < numHashFunctions; i++) {
      for (Vector.Element ele : featureVector.nonZeroes()) {
        int value = hashValue ? (int) ele.get() : ele.index();
        bytesToHash[0] = (byte) (value >> 24);
        bytesToHash[1] = (byte) (value >> 16);
        bytesToHash[2] = (byte) (value >> 8);
        bytesToHash[3] = (byte) value;
        int hashIndex = hashFunction[i].hash(bytesToHash);
        //if our new hash value is less than the old one, replace the old one
        if (minHashValues[i] > hashIndex) {
          minHashValues[i] = hashIndex;
        }
      }
    }
    // output the cluster information
    for (int i = 0; i < numHashFunctions; i++) {
      StringBuilder clusterIdBuilder = new StringBuilder();
      for (int j = 0; j < keyGroups; j++) {
        clusterIdBuilder.append(minHashValues[(i + j) % numHashFunctions]).append('-');
      }
      //remove the last dash
      clusterIdBuilder.deleteCharAt(clusterIdBuilder.length() - 1);

      cluster.set(clusterIdBuilder.toString());

      if (debugOutput) {
        vector.set(featureVector);
        context.write(cluster, vector);
      } else {
        context.write(cluster, item);
      }
    }

protected void reduce(Text cluster, Iterable<Writable> points, Context context)
   throws IOException, InterruptedException {
   Collection<Writable> pointList = Lists.newArrayList();
   for (Writable point : points) {
     if (debugOutput) {
       Vector pointVector = ((VectorWritable) point).get().clone();
       Writable writablePointVector = new VectorWritable(pointVector);
       pointList.add(writablePointVector);
     } else {
       Writable pointText = new Text(point.toString());
       pointList.add(pointText);
     }
   }
   if (pointList.size() >= minClusterSize) {
     context.getCounter(Clusters.ACCEPTED).increment(1);
     for (Writable point : pointList) {
       context.write(cluster, point);
     }
   } else {
     context.getCounter(Clusters.DISCARDED).increment(1);
   }
 }

查看本栏目更多精彩内容：http://www.bianceng.cnhttp://www.bianceng.cn/Programming/sjjg/

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索cluster
， context
， knn 聚类分类
， value
， minhash
Writable
，以便于您获取更多的相关知识。

时间： 2024-10-01 16:08:57

mahout系列：minhash聚类的相关文章

mahout系列：谱聚类

1.构造亲和矩阵W 2.构造度矩阵D 3.拉普拉斯矩阵L 4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量 5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类亲和矩阵 :W_ij=exp(-(d(s_i,s_j)/2o^2)) d (s_i,s_j) = ||s_i,s_j||. o 为事先设定的参数. 度矩阵:D_ii =sum(w_i) 规范相似矩阵:D^(-1/2)*W*D^(1/2) ,即:W(i,j)/(D(

Mahout系列：kmeans 聚类

Kmeans是最经典的聚类算法之一,它的优美简单.快速高效被广泛使用. Kmeans算法描述输入:簇的数目k:包含n个对象的数据集D. 输出:k个簇的集合. 方法: 从D中任意选择k个对象作为初始簇中心: repeat; 根据簇中对象的均值,将每个对象指派到最相似的簇: 更新簇均值,即计算每个簇中对象的均值: 计算准则函数: until准则函数不在发生变化. Kmeans 算法的优缺点: 1)优点 (1)k-平均算法是解决聚类问题的一种经典算法,算法简单.快速. (2)对处理大数据集,该

Mahout系列：canopy 算法

Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联. (5)若dist<t2,则将相应点移出S,作为强关联. (6)重复(2)~(5),直至S为空. 上面的过程可以看出,dist<t2的点属于有且仅有一个簇,t2<dist<t1 的点可能属于

Mahout系列：相似度

Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度.对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方. User 相似度: Item 相似度: 皮尔森相关度类名:PearsonCorrelationSimilarity 原理:用来反映两个变量线性相关程度的统计量范围:[-1,1],绝对值越大,说明相关性越强,负相关对于推荐的意义小.

Mahout系列：距离度量

x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为 (1)欧氏距离 EuclideanDistanceMeasure (2)曼哈顿距离 ManhattanDistanceMeasure (3)马氏距离MahalanobisDistanceMeasure 马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离.它是一种有效的计算两个未知样本集的相似度的方法.与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息

mahout系列：Dirichlet 分布

Dirichlet分布可以看做是分布之上的分布.如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}.现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}.现在,我们还不满足,我们想要做10000次试验,每次试验中我们都投掷

MinHash原理与应用

MinHash首先它是一种基于 Jaccard Index 相似度的算法,也是一种LSH的降维的方法,应用于大数据集的相似度检索.推荐系统.下边按我的理解介绍下MinHash. 举例A,B 两个集合: A = {s1, s3, s6, s8, s9} B = {s3, s4, s7, s8, s10} 根据Jaccard Index公式,A,B的相似度 S(A,B) = |A∩B|/|A∪B| = 2/8 = 0.25 当然直接计算两个集合的交集与并集,是很耗计算资源的,特别是在海量数据场景下不

Mahout和Hadoop：机器学习的基本原理

计算技术通常用来分析数据,而理解数据则依赖于机器学习.多年来,对于大多数开发者来说,机器学习却是非常遥远.一直是难以企及的. 这可能是现在收益最高,也是最受欢迎的一项技术之一.毫无疑问--作为开发人员,机器学习是一个能够大展身手的舞台. 图1:机器学习的构成机器学习是简单数据检索与存储的合理扩展.通过开发各种组件,使计算机更加智能学习和发生行为. 机器学习使得挖掘历史数据和预测未来趋势成为可能.你可能还没意识到,但的确已经在使用机器学习,并受益颇多.与机器学习有关的例子很多,如搜索引擎产生结果

《R与Hadoop大数据分析实战》一1.7　Hadoop的子项目

1.7 Hadoop的子项目 Mahout是一个很强大的数据挖掘库,其中包含大部分与数据挖掘有关的机器学习算法,可实现聚类.分类.回归分析及统计建模等,可用于智能应用,它也是一个不错的机器学习库. Apache Mahout是一个商用软件,需要Apache软件分发的许可证.Apache Mahout的目标是建立一个充满活力.反应灵敏.多样化的社区,以方便对项目本身以及潜在使用案例的讨论. 使用Mahout的一些公司如下: Amazon:这是一个提供个性化推荐的购物网站. AOL:这是一个有购物建

猜你喜欢

VS2010中的调试技巧

这是我的博客中关于VS 2010和.NET 4发布系列的第二十六篇文章. 今天的博文将介绍Visual Studio中的一些实用调试技巧.这是受我朋友Scott Cate (他发表过几十篇很棒的VS技 ...

jsp页面-JSP读取数据库保存的图片

问题描述 JSP读取数据库保存的图片数据库有张指纹表专门用来保存指纹图片(10个手指头),现在想要在JSP页面上显示某个人的10个手指的指纹图片.请教各位大神如何实现? 解决方案 JSP页面代码: ...

数据采集程序(网页小偷)点滴心得

采集|程序|数据|网页|心得所谓的数据采集程序也就是网页小偷程序(大家别骂我哦),写完了来这里发点东西,希望大家有何高见共同研究. 1.在下载数据的开始,有些网站是要登录了才能看到相应的数据,这个 ...

ASP做象资源管理器的树形目录

一.读者指引读者指引帮助你掌握本文的梗概.以免你看了大半才明白这编文章不适合你,给你造成视觉污染. 如果你正在用ASP+XML写一些程序,或者你正在学XML那就值得一看. 阅读本文须具备的知识,对A ...

胡益博：分析狼雨快速提升的排名方法

最近几天百度抽风,很多大站都被K掉了,站长之家降权.利伪汇被K.还有很多很多.但狼雨在SEO业界火了,他将一个不是很老的域名和不按常理规则做的SEO优化尽然超越了seowhy.相信很多搞SEO的朋友都 ...

网络备份解决数据安全难题

企业业务冗余水平取决于服务器上所存储数据的完整性.对于那些为云存储客户提供服务的公司,如果不能保持99.9999%的正常运行时间,并绝对确保数据的备份和恢复,业务就无法维继.所以,现在有以下几个问题需 ...

Windows Server 2003中在登录界面显示额外自定义信息

前几天有朋友问到说想实现下边的这个功能,然后这样当发给他的学生做实施的虚机模版时就不用再一个一个告了,学生拿到虚机直接就能看到帐号和密码,朋友要实现的功能截图如下,我给PS了一个,和大家分享下如何实现 ...

追溯怀旧 Office 2007经典菜单打造

微软的Office 2007新的Ribbon界面,将过去版本中的菜单栏和工具栏一并抛弃,取而代之的是使用标签页将图标.选项和下拉菜单都集合在其中.Office 2007所做出的这个改变无疑是你打开Wo ...

Windows 7的特殊隐藏分区一探究竟

1.分区状态该分区的格式为NTFS,没有磁盘卷标也没有分配驱动器号,其磁盘状态描述为:系统.活动.主分区.因为没有驱动器号,所以在资源管理器中是不可见的. 2.该分区中都有什么呢? 为了一探究竟,笔 ...

LINQ to SQL语句(12)之Delete和使用Attach

删除(Delete)1.简单形式说明:调用DeleteOnSubmit方法即可. OrderDetail orderDetail = db.OrderDetails.First (c => c ...

Fireworks教程：卡通表情制作

人的面部可以表现出成千上万.不计其数而又十分微妙的表情,而且表情的变化十分迅速.敏捷和细致,能够真实.准确地反映情感,传递信息.面部所表现出的各种各样的情感,最能吸引对方的注意.在你未开口之前对方就从 ...

PS鼠绘淡水彩风格的古典美女

淡水彩重点是在铺色的时候色彩要淡,设置的画笔不透明度要稍微低一点.尤其是在刻画脸部及五官的时候,需要非常仔细的去刻画,色调一定要均匀.这样画出的效果才精细. 最终效果 1.新建一个600 * 600像 ...

最值得拥有的11款Chrome插件和应用程序

你现在是在用Google Chrome浏览器访问雷锋网吗?如果还不知道Chrome,就真的out了!现在Chrome已经成为全球第二大受欢迎的浏览器,而它的成功有部分要归功于整合的各种插件和应用程序. ...

利用进制转换压缩数字函数分享

本文主要介绍了进制转换函数,用于压缩数字,比如Date.now()这样的长数字,用62进制表示,就更短,大家参考使用吧代码如下: function zipNum(num, radix){ ...

无忧系统助手怎么在线重装win7系统

1.下载并打开无忧系统助手,点击[在线重装],软件会自动检测出当前分区模式.网络状态等,如图: 2.软件自动检测电脑软硬件环境和电脑网络联通状态完成后点击[下一步],如图: 3.备份你电脑上一些重 ...

《Windows PowerShell实战指南（第2版）》——3.7　访问在线帮助

3.7 访问在线帮助 PowerShell的帮助文档是由人编写的,这意味着它们并一定准确无误.除了更新帮助文档(你可以运行Update-Help),微软也在其网站上发布帮助文档.PowerShell ...

天猫为何一再好心办错事

今年的8天长假期间有天猫200多位中小商户急于维权.淘宝商城遭围攻的一幕恍如昨日,今日的天猫再度激起公愤.按照常识,"黄金周"必然是天猫(Tmall,前身为淘宝商城)商家忙于卖货赚 ...

OPENCV1.0配置VS2010有没有一劳永逸的方法呢？

问题描述 OPENCV1.0配置VS2010有没有一劳永逸的方法呢? OPENCV1.0配置VS2010有没有一劳永逸的方法呢?,每次新建个项目都要重新配置好麻烦,求一种一次配置长久使用的方法解决方 ...

Spring Batch在大型企业中的最佳实践

在大型企业中,由于业务复杂.数据量大.数据格式不同.数据交互格式繁杂,并非所有的操作都能通过交互界面进行处理.而有一些操作需要定期读取大批量的数据,然后进行一系列的后续处理.这样的过程就是" ...

电子商务的未来

对于国内所有做电子商务的公司来说,让他们最开心的就是麦考林在美国纳斯达克成功上市,这是中国第一家B2C的上市公司.而另一家著名电子商务公司当当网也已正式提交美国纽交所上市申请. "这就说明了 ...

谢国忠：大数据在金融(视频+图文)

海量大数据研习社是海量信息技术有限公司发起的大数据公益沙龙.12月26日下午,在研习社第六次聚会上,谢国忠特别分享了如何在大数据应用模式和应用场景上大胆创新,以及如何快速扩充数据来源等涉及大数据具体应 ...

多列复合索引的使用绕过微软sql server的一个缺陷_MsSql

然而,微软sql server在处理这类索引时,有个重要的缺陷,那就是把本该编译成索引seek的操作编成了索引扫描,这可能导致严重性能下降举个例子来说明问题,假设某个表T有索引 ( cityid, ...

oscache ehcache oscache与ehcache的区别

一.ehcache主要是对数据库访问的缓存,相同的查询语句只需查询一次数据库, 二. oscache 主要是对页面的缓存,可以整页或者指定网页某一部分缓存,同时指定他的过期时间,这样在此时间段里面访 ...

dsp-如何用ccs 3.3完成语音采集和滤波？

问题描述如何用ccs 3.3完成语音采集和滤波? 已经有AD转换程序及FIR滤波程序,怎么完成语音信号的采集并导入滤波器中滤波?? 解决方案首先你用的是开发析,还是自己设计焊的板子,从硬件上搞清这 ...

未来土豆将专注年轻人市场

未来土豆将专注年轻人市场,整体策略和优酷大而全的综合视频网站路线将有明显区分. 自土豆和优酷合并以来,一直受限于内容重叠度过高的困扰.今年4月,优酷土豆集团宣布进入"集团BU化"运 ...

《AutoCAD 2014中文版超级学习手册》——第2章　图层设置 2.1　设置图层

第2章图层设置 AutoCAD提供了图层工具,它可以对每个图层规定其颜色和线型,并把具有相同特征的图形对象放在同一图层上绘制.这样绘图时不用分别设置对象的线型和颜色,不仅方便绘图,而且保存图形时只需 ...

从财报增长到“假王朔”，这个故事有点雷

这是一个爱讲故事的年代. 新浪Q2财报试图讲一个"微博逆袭"的故事,特别强调了新浪微博营收了3770万美元,其中广告营收为3000万元占了80%.一些人为此振奋,但其实可以这样看: ...

Asp.net生成静态页面并分页

asp教程.net生成静态页面并分页 <!doctype html public "-//w3c//dtd html 4.01 transitional//en"" ...

Python 程序的运行原理及垃圾回收

1. 简单的例子先从一个简单的例子说起,包含了两个文件 foo.py 和 demo.py [foo.py]def add(a, b): return a + b [demo.py]import ...

自定义View系列教程01--常用工具介绍

探索Android软键盘的疑难杂症深入探讨Android异步精髓Handler 详解Android主流框架不可或缺的基石站在源码的肩膀上全解Scroller工作机制 Android多分辨率适配框架 ...

热搜