multipleoutputs-MapReduce清洗数据,输出多个文件

问题描述

MapReduce清洗数据,输出多个文件

测试数据:
067017??? DA2821EA174C4CD6F4E0914C14E740BC??? 尊敬的周斌颉,您编号为14060800112的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。??? 2014-11-26????
008080??? B96D6244E733E1F97259927CF79B9B04??? 您的一笔借款已逾期!将每日产生罚息并影响您的信用记录,请您尽快还款。如您不再需要收到此类短信,请登录网站设置或致电400-090-6600??? 2014-11-26
420894??? 66AEE4A81D0DC3F7597CF14304DF8A37??? 马鹏云先生:您的借款第二次借款绝不逾期希望支持??? 第1期将于2014-12-03到期,为保证您的信誉良好,介时请及时还款,谢谢!??? 2014-11-26
067017??? 98717067FE78A6E71213A3F02969863C??? 尊敬的陈慧丽,您编号为14082000739的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。??? 2014-11-26
000000??? 4DCB184986008ADD3AD33E4860745FAA??? [2111-9607-5482-7768]F 有效期2014-08-11到2014-10-31;项王故里成人票(停车场负一楼团队售票处报江苏南方旅行社验证取票,有问题联系唐13515299345)-成人票2张?
000000??? 822D3A7BD4B44547D5E71C60D521D694??? [2111-9211-4633-7607]U 有效期2014-10-17到2014-12-31;月亮河温泉度假酒店房-双人温泉/桑拿家庭套票1张?
000000??? 4929EDF20844D65ECD4333FBA9D8FD7F??? [2111-7081-7365-7431]G 有效期2014-12-15到2015-03-31;南京麦乐迪KTV-团圆桌餐698元/套(8-10人)VIP房(12-3)1张?
000000??? F64D4901A21600ED51BE0D49DF390F81??? [2111-7381-8605-8288]Z 有效期2014-11-18到2015-09-30;顺景温泉酒店-行政豪华房 (含2人温泉)1张?
000000??? 822D3A7BD4B44547D5E71C60D521D694??? [2111-7011-4144-0946]F 有效期2014-10-17到2014-12-31月亮河温泉度假酒店房-双人特惠房2张
000000??? C4183B38CF4D0141BF23CA1D794B4093??? [2111-9677-3783-8938]S 有效期2013-11-01到2015-06-30汽车博物馆-双成人套票2张?
000000??? BF67C952CDE878AA79D2F6683A464947??? [2111-4021-6549-0044]M 有效期2014-10-08到2015-08-31北京青泉赢睿卡丁车-假日票(新)4张
000000??? 22FD17C8CA607FB179D7FE505748AA61??? [2111-4079-9733-2324]F 有效期2015-05-01到2015-08-31大兴野生动物园-自驾区车票1张
使用MapReduce清洗数据,并根据不同的内容分别输出到多个文件
清洗规则:提取第一列,第二列,第三列中括号里面的内容
结果数据:
如果第三列包含逾期则输出到overdue.txt
067017??? DA2821EA174C4CD6F4E0914C14E740BC???
008080??? B96D6244E733E1F97259927CF79B9B04???
420894??? 66AEE4A81D0DC3F7597CF14304DF8A37???
067017??? 98717067FE78A6E71213A3F02969863C???
如果第三列包含房则输出到house.txt
000000??? 4DCB184986008ADD3AD33E4860745FAA???
000000??? 822D3A7BD4B44547D5E71C60D521D694??? ?
000000??? 4929EDF20844D65ECD4333FBA9D8FD7F??? ?
000000??? F64D4901A21600ED51BE0D49DF390F81??? ?
000000??? 822D3A7BD4B44547D5E71C60D521D694???
如果第三列包含车则输出到car.txt
000000??? 4DCB184986008ADD3AD33E4860745FAA???
000000??? C4183B38CF4D0141BF23CA1D794B4093??? ?
000000??? BF67C952CDE878AA79D2F6683A464947???
000000??? 22FD17C8CA607FB179D7FE505748AA61???

解决方案

http://www.aboutyun.com/thread-5657-1-1.html

时间: 2024-09-17 15:03:58

multipleoutputs-MapReduce清洗数据,输出多个文件的相关文章

数据清洗-MapReduce清洗数据文件

问题描述 MapReduce清洗数据文件 求一数据清洗大神,会MapReduce的帮忙解决一程序.酬劳私聊,随时联系. 解决方案 http://bbs.csdn.net/topics/391868732

SSIS:两种将SQL Server数据库数据输出成XML文件的方法

在 SSIS 中并没有直接提供从数据源到 XML 的转换输出,Destination 的输出对象有 Excel File, Flat File, Database 等,但是并没有直接提供 XML 文件输出的配置. 但是我们仍然可以通过下面这些方法来实现: 方法一:使用平面文件对字符串 XML 转换输出 方法二:使用 Script Task 将 XML 字符串输出 测试数据库 - AdventureWorks2012 测试表 - [Sales].[SalesOrderDetail] 比如说我们要将

数据输出到WORD文件或EXCEL文件的路

excel|word|数据 经常会有要把数据库中的内容读出来并生成一个EXCEL文件或WORD文件的情况.我来谈谈我的处理方法及思路.不当之处,请高手指教 有一种最简单的方法:就是前面加:Response.ContentType = "Application/msexcel" 然后就会用EXCEL来打开.不过,这种方法会出现很多怪毛病,比如,有的机打得开,有的机又不行,不同的OFFICE版也可能不行,还可能打开是个空白页面等等.. 第二种方法:通过试验,我们发现,把一个HTML的表格扩

multipleoutputs-MapReduce清洗文件输出多个文件

问题描述 MapReduce清洗文件输出多个文件 测试数据: 067017??? DA2821EA174C4CD6F4E0914C14E740BC??? 尊敬的周斌颉,您编号为14060800112的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询.??? 2014-11-26???? 008080??? B96D6244E733E1F97259927CF79B9B04??? 您的一笔借款已逾期!将每日产生罚息并影响您的信用记录,请您尽快还款.如您不

JSP从数据库中导出数据并输出生成XML文件

JSP从数据库教程中导出数据并输出生成XML文件 /* 数据库结构 create table userTable01(     user_id int(4) NOT NULL primary key auto_increment,     user_name varchar(40),     user_password varchar(40),     user_true_name varchar(40),     user_age int, user_sex varchar(2),     u

做Data Mining,其实大部分时间都花在清洗数据

前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理.往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗.可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑.  大数据圈里的一位扫地僧 说明:这篇文章很早就想写了,但是切入点一直拿捏不准,要讲的内容比较大众化,却又是重中之重. 一.数据清洗的那些事 构建业务模型,在确定特征向量以后,都需要准备特征数据在线下进行训练.验证和测试.同样,部署发布离线场景模型,也需要每天定时跑P加工模型

Hadoop专业解决方案-第3章:MapReduce处理数据

前言:非常感谢团队的努力,最新的章节终于有了成果,因为自己的懒惰,好久没有最新的进展了,感谢群里兄弟的努力. 群名称是Hadoop专业解决方案群  313702010 本章主要内容: 理解MapReduce基本原理 了解MapReduce应用的执行 理解MapReduce应用的设计 截止到目前,我们已经知道Hadoop如何存储数据,但Hadoop不仅仅是一个高可用 的,规模巨大的数据存储引擎,它的另一个主要特点是可以将数据存储与处理相结合. Hadoop的核心处理模块是MapReduce,也是当

MapReduce的数据流程、执行流程

MapReduce的数据流程: 预先加载本地的输入文件 经过MAP处理产生中间结果 经过shuffle程序将相同key的中间结果分发到同一节点上处理 Recude处理产生结果输出 将结果输出保存在hdfs上 MAP 在map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,  同时InputFormat提供一个RecordReder的实现.默认的是TextInputFormat,  他提供的RecordReder会将文

java如何将输出在控制台的数据输出在textarea中

问题描述 java如何将输出在控制台的数据输出在textarea中 编写了一个用户界面程序 想实现点击查询按钮能够在textarea中显示数据库中内容的功能,关于数据库输出已经编写完成,代码如下 ```public class mysql { public void input(String databasename,String username,String password) { try { Class.forName("com.mysql.jdbc.Driver"); //加载