hadoop编程:分析CSDN注册邮箱分布情况

&">nbsp;   环境:

主机:Ubuntu10.04

hadoop版本:1.2.1

开发工具:eclipse4.4.0

说明:

要求:原始数据共6428632条,分析不同邮箱的注册情况,并按使用人数从大到小排序。

分析:hadoop自带一个排序,是按key值来进行排序的。要按值(value)进行排序,需要二次排序。

步骤:

1.job1:统计不同注册邮箱的使用人数,用默认的key值排序,保存在HDFS系统中

2.job2:对job1的输出进行二次排序,按值从大到小排序

结果输出:

使用人数在1W以上的邮箱共有24个:

qq.com 1976196
163.com 1766927
126.com 807895
sina.com 351596
yahoo.com.cn 205491
hotmail.com 202948
gmail.com 186843
sohu.com 104736
yahoo.cn 87048
tom.com 72365
yeah.net 53295
21cn.com 50710
vip.qq.com 35119
139.com 29207
263.net 24779
sina.com.cn 19156
live.cn 18920
sina.cn 18601
yahoo.com 18454
foxmail.com 16432
163.net 15176
msn.com 14211
eyou.com 13372
yahoo.com.tw 10810

源代码:

JOB1:统计不同注册邮箱的人数

CsdnData.java

时间: 2024-09-15 21:34:55

hadoop编程:分析CSDN注册邮箱分布情况的相关文章

2011年5月上旬中国域名注册量增减情况简要分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 近日,国内域名交易市场频频出现高价交易情况,新浪再斥资62万买下家居产业域名eju.com,目前域名已启用.而此前新浪购得"weibo.com"就花费了上百万.华夏收藏网也以200万之资收购了顶级行业域名cang.com.域名对于互联网企业的重要性,不言而喻.而近日,据IDC评述网调查发现,5月上旬,国内域名市场仍旧不温不

用Excel快速统计和分析成绩分布情况

本文中我们介绍如何用Excel快速统计成绩和分析成绩分布情况的方法和步骤. 准备数据 输入必要的数据,工作表命名为"总表",以 D列的政治分数(满分100)为例,在单元格E1-I1分别输入60以下(差).60分及以上(及格).60-79(中等).80-89(良好).90分以上(优秀). 然后在单元格E2-I2分别输入下面的公式:E2:=IF(D2<60,1,0).F2:=IF(D2>=60,1,0). G2:=IF(AND(D2>=60,D2<=79),1,0)

《Hadoop与大数据挖掘》——2.4 Hadoop编程开发

2.4 Hadoop编程开发 Hadoop框架最核心的设计就是HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.本节就MapReduce开发相关内容进行分析,包括HDFS Java API操作.MapReduce原理.MapReduce相关流程组件配置及编程等.最后将给出两个算法:Kmeans算法.Tf-idf算法的动手实践,加深对MapReduce编程的认识和理解. 2.4.1 HDFS Java API操作 Hadoop中关于文件操作类

如何分析一个网站的优化情况

摘要: 无论是新接手的网站,还是对于竞争对手的研究,seo数据的分析是必不可少的.网站分析,是所有SEO大神在讲解前,必说的一句话,但是对于进入SEO行业时间较短的网站优化人员来说, 无论是新接手的网站,还是对于竞争对手的研究,seo数据的分析是必不可少的.网站分析,是所有SEO大神在讲解前,必说的一句话,但是对于进入SEO行业时间较短的网站优化人员来说,网站分析,无非是把域名放入站长工具中,记录一些重要的参数,比如PR.BR.收录等数据,真的是这样简单吗?今天,Q猪从网站数据分析的二十一个方面

如何构建企业级Hadoop/Spark分析平台

文章讲的是如何构建企业级Hadoop/Spark分析平台,一说大数据,人们往往想到Hadoop.这固然不错,但随着大数据技术的深入应用,多种类数据应用要求的不断提出,一些Hadoop不甚专注的领域开始被人们注意,相关技术也迅速获得专业技术领域的应用.最近半年来的Spark之热即是这样的一个典型. Spark是一个基于内存计算的开源集群计算系统,目的是更快速地进行数据分析. Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发,早期核心部分的代码只有3万行,非常轻量级.S

《Hadoop与大数据挖掘》一2.4 Hadoop编程开发

2.4 Hadoop编程开发 Hadoop框架最核心的设计就是HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算.本节就MapReduce开发相关内容进行分析,包括HDFS Java API操作.MapReduce原理.MapReduce相关流程组件配置及编程等.最后将给出两个算法:Kmeans算法.Tf-idf算法的动手实践,加深对MapReduce编程的认识和理解.

请问C#内存分布情况,例如堆栈 全局静态区 代码区?最好有实例?多谢多谢

问题描述 请问C#内存分布情况,例如堆栈全局静态区代码区?最好有实例?多谢多谢 解决方案 解决方案二:我也想知道这个,帮忙顶一下,,看金旭亮老师的.net2.0面向对象编程揭秘上有说,,但是还不明白解决方案三:这些东西都是有CLR来管理的,作为初学者我觉得不需要把精力和时间放在这里(实际上你就算知道了,CLR也没有太多地方供你操作这些东西),如果你真对这些感兴趣,学C++.解决方案四:我也想学习哈关于内存和缓存,但是一直都没有什么学习的头绪,希望有经验交流哈啊....顶了....解决方案五:还有

简析2011年6月上旬美国域名注册量增减情况

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 昨日,互联网名称与数字地址分配机构(ICANN)已通过决议,批准实行新顶级域名计划,明年晚些时候将会开始出现许多新的域名.届时,新一轮的域名大战或即将开打.下面,将目光转向全球最大的域名交易市场,IDC评述网与大家一起关注6月上旬美国域名注册量增减情况. (图1)美国域名注册量分布图(05/09/11-06/13/11) 据图1所示,在6月上

SEO第一步:分析市场与对手的情况

摘要: 做SEO前少不了分析市场与对手的情况.分析也是成了SEO的第一步,没有合理的分析与对竞争对手的了解就动工SEO,那么这种做法就是耍流氓.分析市场行情与对手的现状是必不可少的, 做SEO前少不了分析市场与对手的情况.分析也是成了SEO的第一步,没有合理的分析与对竞争对手的了解就动工SEO,那么这种做法就是耍流氓.分析市场行情与对手的现状是必不可少的,更是对往后开展SEO工作的重中之重. 一.关键词研究 做SEO如果不懂得关键词分析,那么简直就是可耻.在做关键词分析之前请对公司的产品与人群先