问题描述
进入spark-shell,进行测试:输入,然后执行:,输出结果总是1,无语,折腾了我好久,已疯,希望大神们帮个忙!!!下面是我的hdfs文件:,从最后一图看,单词数那么多,怎么也不是一个啊
解决方案
解决方案二:
你好,你这样统计的并不是单词的个数,而是rdd的个数,你需要这样做:valwords=readmeFile.flatMap(_.split(""))valwordCounts=words.map(x=>(x,1)).reduceByKey(_+_)wordCounts.print()这样才是统计单词的个数。可以加入spark技术交流群366436387,共同交流学习。
解决方案三:
如图,计算的是行数,不是单词数
解决方案四:
你这个语句就是读取这个文件,文件只有一行textFile就是默认以回车换行符作为默认分割,因此输出值为1valwords=readmeFile.flatMap(_.split(""))valwordCounts=words.map(x=>(x,1)).reduceByKey(_+_)
时间: 2024-10-25 00:16:00