问题描述
- hadoop mapreduce 数据分析 丢数据
- 最近发现hadoop的mapreduce程序会丢数据,不知道是什么原因,请教各位:
hadoop环境,通过mapreduce程序分析hdfs上的数据,一天的数据是按小时存储的,每一个小时一个文件价,数据格式都是一样的,现在如果在16点这个文件价里有一条数据a,如果我用mr分析一整天的数据,数据a则丢失,如果单独跑16点这个文件夹里的数据,则数据a不会丢失,可以正常被分析出来,只要一加上其他时间段的数据,数据a就分析不出来,请问这是为什么?最近在学习spark,我用spark程序跑同样的数据,整天的,不会有丢失的问题,的所以我肯定不是数据格式的问题
希望大家能帮我解决这个hadoop的问题,谢谢啦
解决方案
时间: 2024-08-20 00:49:28