hadoop-Hadoop 单词统计,统计第四列数据

问题描述

Hadoop 单词统计,统计第四列数据
当前日志采集格式为:
abcd
bbfe
aacf
请用java写一个map/reduce程序,计算第四列每个元素出现的个数。

大神们,求帮助。

解决方案

mapper:

String vStr = value.toString().split("")[3];
ctx.write(new Text(vStr)new IntWriteble(1));

reducer :
for(IntWriteble v : value){
ctx.write(keyv);
}

时间: 2024-09-20 00:39:10

hadoop-Hadoop 单词统计,统计第四列数据的相关文章

如何用ASP编写网站统计系统(四) (转自gaoshan)

统计 如何用ASP编写网站统计系统(四) 本文只做方法探讨. 能采集数据我们都能采到了,那么我们就开始编制ASP的统计页面. 这一页我们叫计数页,counter.asp 这段asp代码我们需要让它按如下的流程进行采集数据并保存数据和更新数据: 采集用户名,判断用户名是否合法,采集访问者的信息,对信息进行加工,进行保存和更新数据库,返回logo图标. 调用这个ASP用counter.asp?user=abc这个方式. 采集用户名我们可以用Request对象的相应方法取得,然后检查用户表判断用户是否

Python开发的单词频率统计工具wordsworth使用方法_python

使用方法: python wordsworth --filename textfile.txt python wordsworth -f textfile.txt 分析结果: 附上github项目地址:https://github.com/autonomoid/wordsworth 以上是小编为您精心准备的的内容,在的博客.问答.公众号.人物.课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索python wordsworth python统计单词频率.python 统计字母频率.py

如何在Excel中快速辨别两列数据是否一致的四种方法介绍

  我们以下表的数据为例,具体的介绍一下操作方法. 方法一: Excel分别对AB列两列数据对比,比如A2=B2,就返回相同,否则返回不相同. D2公式为:=IF(C2=B2,"相同","不同"),这样就可以实现excel两列对比,判断C2和B2是否相同,如果相同就返回值"相同",反之则显示不同. 同样的方法比较其它数据,结果如下图: 不过细心的朋友会发现,B5和C5实质上有大小写区分的,因此使用这个公式不是完全准确.Excel中exact函数可

如何在access中查询统计带分号的字符串数据?

问题描述 如何在access中查询统计带分号的字符串数据? 有一表内容大致如下:人员姓名 | 金额甲:乙:丁: | 60甲:乙: | 40乙:丁: | 40丙: | 20求一查询,平均分金额后合计,可得新表如下:人员姓名 | 金额甲 | 40乙 | 60丙 | 20丁 | 40 即原表中第一行甲乙丙三人平分60,乙得20:第二行甲乙二人平分40,乙得20:第三行同理,新表中乙合计得60. 解决方案 你的统计规则是什么,为什么甲是40? 解决方案二: string[] 数据 = { ""

hadoop map怎么一次读取多行数据(一块数据)而非一行数据?

问题描述 hadoop map怎么一次读取多行数据(一块数据)而非一行数据? 利用hadoop做数据SVM并行计算,但是想在map任务中将数据分块建立模型再reduce中将分块的 模型合并,但是map每次只能读取一行数据,不能满足数据挖掘中用一整块数据去建模的 原则,请教大家怎么修改map任务逻辑,能一次读取一块数据而非一行数据,谢谢 解决方案 你需要自定义hadoop的InputFormat,而不是改mapper 解决方案二: 看这篇博客 里面讲了怎么实现一次读取多行http://blog.c

sql-关于SQL 两行两列变一行四列 怎么写语句啊

问题描述 关于SQL 两行两列变一行四列 怎么写语句啊 如题 两行两列变一行四列 怎么写语句啊,不要那种多列合并成一个单元格的,相当于把之后的每一行都加到第一行的后面 解决方案 http://www.cnblogs.com/aspnethot/articles/1762665.html 解决方案二: 如果我现在的行数不确定,不是还要写一个存储过程么? 解决方案三: 你得发下表结构,不然不太好帮助你!

Hadoop的虚拟化之恋:应对大数据挑战

文章讲的是Hadoop的虚拟化之恋:应对大数据挑战,高速增长的数据量和日益增加的竞争压力,让越来越多的企业开始思考如何挖掘这些数据的价值.传统的BI系统.数据仓库和数据库系统都不能很好地处理这些数据.原因包括: 1.数据量太大,传统数据库不能有效存储并维持可以接受的性能; 2.新产生的数据往往是非结构化的,而传统方式都是为处理结构化数据而设计的; 3.传统数据处理所需的硬件往往相对昂贵,随着数据量增加而继续用传统方式处理的成本让很多企业不能承受.为此,倍受互联网界推崇的Apache Hadoop

sqlserver-sql 通过like查询出一张表的一些数据,然后打算更新其中一列数据

问题描述 sql 通过like查询出一张表的一些数据,然后打算更新其中一列数据 请问下,先通过like查询a表中一些数据然后打算更新查询结果中一列数据,请问怎么弄你? 解决方案 update a set 字段1='新值' where 字段2 like '%条件%' 解决方案二: update tablename set 字段='XX' where 字段 like '%XX%' 解决方案三: 如果是在Oracle下,我用PLSQL Developer试过这样的方式.select * from ta

特定位置数据读取-C#用listView读取文件的后几列数据

问题描述 C#用listView读取文件的后几列数据 我的文件类型是txt的,需要读取该文件的后三列内容,如图: 将这些数据导入listview,该如何执行? 主要是不知道如何读取后三列求大神指教,谢谢! 解决方案 用stream流读取存到字符数组中 public static string[] Read(string path) { StreamReader sr = new StreamReader(path, Encoding.Default); String line; string l