&">nbsp; 环境:
主机:Ubuntu10.04
hadoop版本:1.2.1
开发工具:eclipse4.4.0
说明:
要求:原始数据共6428632条,分析不同邮箱的注册情况,并按使用人数从大到小排序。
分析:hadoop自带一个排序,是按key值来进行排序的。要按值(value)进行排序,需要二次排序。
步骤:
1.job1:统计不同注册邮箱的使用人数,用默认的key值排序,保存在HDFS系统中
2.job2:对job1的输出进行二次排序,按值从大到小排序
结果输出:
使用人数在1W以上的邮箱共有24个:
qq.com 1976196
163.com 1766927
126.com 807895
sina.com 351596
yahoo.com.cn 205491
hotmail.com 202948
gmail.com 186843
sohu.com 104736
yahoo.cn 87048
tom.com 72365
yeah.net 53295
21cn.com 50710
vip.qq.com 35119
139.com 29207
263.net 24779
sina.com.cn 19156
live.cn 18920
sina.cn 18601
yahoo.com 18454
foxmail.com 16432
163.net 15176
msn.com 14211
eyou.com 13372
yahoo.com.tw 10810
源代码:
JOB1:统计不同注册邮箱的人数
CsdnData.java
时间: 2024-09-15 21:34:55