关于合并用python导入spark,RDD中的CSV数据的问题

问题描述

#数据说明:#Stage1_train_label.CSV400X7(400行7列),无用数据只有第一列的序列号,#Stage1_train_feature.CSV400X73(400行73列),无用数据第一列是序列号#将RDD元素转换成float型函数defconverttofloat(s):l=(float(i)foriins)returnl#读取数据sc.textFile并去掉label、feature第一列无用数据Data_train_label=sc.textFile(r'Stage1_train_label.CSV',6,0).map(lambdarow:row.split(',')).map(lambdas:s[1:])#不明白6,0是什么意思Data_train_feature=sc.textFile(r'Stage1_train_feature.CSV',72,0).map(lambdarow:row.split(',').map(lambdas:s[1:])Data_train_label_Sum=Data_train_label.map(lambdas:(int(s[0])+2*int(s[1])+4*int(s[2])+10*int(s[3])+20*int(s[4])+40*int(s[5])))#多标签转换成单标签各标签的权值分别是1,2,4,10,20,40Data_train_feature=Data_train_feature.map(converttofloat)#合并数据的目标是:#将Data_train_label_Sum的400个元素依次添加到Data_train_feature400个RDD内最后一个位置Data_train=Data_train_feature.union(Data_train_label_Sum)printData_train.collect()#结果:Data_train_label_Sum的400个元素直接添加到Data_train_feature后面对于这样简单问题,我也不会,查阅资料尝试许久还是没有解决,最终鼓起勇气发帖求救!!求各位前辈指点指点怎么实现添加到数列最后一个位置的合并小白在此谢谢了

解决方案

时间: 2024-09-28 22:39:41

关于合并用python导入spark,RDD中的CSV数据的问题的相关文章

编程-对Spark RDD中的数据进行处理

问题描述 对Spark RDD中的数据进行处理 10C Spark新手.现在在程序中生成了一个VertexRDD[(StringString)].其中的值是如下这种形式的:(3477267 6106 7716 8221 18603 19717 28189)(263118589 18595 25725 26023 26026 27866)(1096918591 25949 25956 26041)(102189320 19950 20493 26031)(586018583 18595 25725

c#窗体-c#将csv导入到datagridview中为什么有数据没显示

问题描述 c#将csv导入到datagridview中为什么有数据没显示 导入后有一部分在datagridview中没有显示,可能得原因有哪些...是不是csv文件中的数据格式有问题? 解决方案 很可能,比如说,你的数据中有引号逗号空格回车等没有转义

使用python提取html文件中的特定数据的实现代码_python

例如 具有如下结构的html文件 复制代码 代码如下: <div class='entry-content'> <p>感兴趣内容1</p> <p>感兴趣内容2</p> -- <p>感兴趣内容n</p> </div> <div class='content'> <p>内容1</p> <p>内容2</p> -- <p>内容n</p>

在web窗体导入SQL数据库中的一行数据

问题描述 这些数据已经在数据库当中希望大家帮帮忙 解决方案 解决方案二:买一本比较好一点的asp.net入门书.不要连几十块钱都不舍得,不要靠看网页或者视频来自学.解决方案三:引用1楼sp1234的回复: 买一本比较好一点的asp.net入门书.不要连几十块钱都不舍得,不要靠看网页或者视频来自学. 说的很对,还想请问,我那个性别之前设置的是bit类型,怎么显示成"男"."女"呢解决方案四:判断啊你让他1为男就是男是女就是女这需要根据业务判断解决方案五:也可以在sql

Spark SQL中的数据源

Spark 支持通过 DataFrame 来操作大量的数据源,包括外部文件(如 json.avro.parquet.sequencefile 等等).hive.关系数据库.cassandra 等等. 本文测试环境为 Spark 1.3. 加载和保存文件 最简单的方式是调用 load 方法加载文件,默认的格式为 parquet,你可以修改 spark.sql.sources.default 指定默认的格式: scala> val df = sqlContext.load("people.pa

怎样把excel部分字段导入到SQL2000中

问题描述 SQL2000中有个表它只需要EXCEL中的部分字段有高手帮忙吗谢谢 解决方案 解决方案二:把excel复制一份,在复制中的把其余不要的列删除,然后用SQL语句把数据插入到数据库表中.解决方案三:突然想起来,SQL2000有项导可以导入excel的数据,SQL语句都不用写..打开企业管理器,打开要导入数据的数据库,在表上按右键,所有任务-->导入数据,弹出DTS导入/导出向导,按下一步,2.选择数据源MicrosoftExcel97-2000,文件名选择要导入的xls文件,按下一步,3

如何在Python的Flask框架中使用模版的入门教程

  如何在Python的Flask框架中使用模版的入门教程?          概述 如果你已经阅读过上一个章节,那么你应该已经完成了充分的准备工作并且创建了一个很简单的具有如下文件结构的Web应用: microblog |-flask文件夹 |-<一些虚拟环境的文件> |-app文件夹 | |-static文件夹 | |-templates文件夹 | |-__init__.py文件 | |-views.py文件 |-tmp文件夹 |-run.py文件 以上给你介绍了在Python的Flask

Spark生态系统中的图数据分析知识

图结构可有效表示稀疏矩阵,因而图数据分析可用于实现大数据分析.对于Spark生态系统中的图处理系统GraphX,<Spark GraphX in Action>一书给出了详细的教程和典型用例,将教会读者如何使用GraphX和GraphFrames进行图分析.本文是Info对该书作者的访谈,内容包括图数据及分析技术.GraphX高效程序开发.图数据分析的趋势等. 如何定义图数据? Michael Malak:就事论事,图结构看上去并非像股价图那样,而是边和点的集合.但这只是一种模糊的数学抽象.更

Spark SQL中的DataFrame

在2014年7月1日的 Spark Summit 上,Databricks 宣布终止对 Shark 的开发,将重点放到 Spark SQL 上.在会议上,Databricks 表示,Shark 更多是对 Hive 的改造,替换了 Hive 的物理执行引擎,因此会有一个很快的速度.然而,不容忽视的是,Shark 继承了大量的 Hive 代码,因此给优化和维护带来了大量的麻烦.随着性能优化和先进分析整合的进一步加深,基于 MapReduce 设计的部分无疑成为了整个项目的瓶颈. 详细内容请参看 Sh