编程-对Spark RDD中的数据进行处理

问题描述

对Spark RDD中的数据进行处理 10C

Spark新手。
现在在程序中生成了一个VertexRDD[(StringString)].
其中的值是如下这种形式的：
(3477267 6106 7716 8221 18603 19717 28189)
(263118589 18595 25725 26023 26026 27866)
(1096918591 25949 25956 26041)
(102189320 19950 20493 26031)
(586018583 18595 25725 26233)
(115011551 26187 27170)
(57172596 5187 5720 18583 25725)
(95019667 20493 25725 26024 26033 26192 27279 27281)
(1339719943 26377)
(28994720 8411 19081 20100 20184 20270 20480 20493 20573 20574 25891)
(1142419816 19819 19841 20244 27098)
(89515914 18609 26057)
(19098797 18608 19785 19786 27531)
(1280720040 20608 27159)（后面用到的数据）
(179531718 6112 18603 18608)

前面的值是key，后面的一串字符是value（由空格隔开）

现在我想对于这个RDD，将每一条数据value中的空格隔开的每个值取出并两两组合，形成一个新的key-value的数据，然后形成一个新的RDD，比如
对(1280720040 20608 27159)这一条数据，处理后得到的是
（2004020608）
（2004027159）
（2060827159）
怎么才能实现？求问

解决方案

http://blog.csdn.net/bluejoe2000/article/details/41415087

时间： 2024-09-28 04:56:18

编程-对Spark RDD中的数据进行处理的相关文章

Android编程实现在adapter中进行数据操作的方法

本文实例讲述了Android编程实现在adapter中进行数据操作的方法.分享给大家供大家参考,具体如下: package com.cvte.apkclassify; import java.util.ArrayList; import android.content.Context; import android.content.pm.ApplicationInfo; import android.content.pm.PackageInfo; import android.content.p

关于合并用python导入spark,RDD中的CSV数据的问题

问题描述 #数据说明:#Stage1_train_label.CSV400X7(400行7列),无用数据只有第一列的序列号,#Stage1_train_feature.CSV400X73(400行73列),无用数据第一列是序列号#将RDD元素转换成float型函数defconverttofloat(s):l=(float(i)foriins)returnl#读取数据sc.textFile并去掉label.feature第一列无用数据Data_train_label=sc.textFile(r'S

spark-在使用Spark Streaming向HDFS中保存数据时，文件内容会被覆盖掉，怎么解决？

问题描述在使用Spark Streaming向HDFS中保存数据时,文件内容会被覆盖掉,怎么解决? 我的Spark Streaming代码如下所示: val lines=FlumeUtils.createStream(ssc,"hdp2.domain",22222,StorageLevel.MEMORY_AND_DISK_SER_2) val words = lines.filter(examtep(_)) words.foreachRDD(exam(_)) //some other

java网络编程中IO数据输入输出阻塞

问题描述 java网络编程中IO数据输入输出阻塞服务端代码如下: public class Server { public static void main(String[] args) throws IOException { ServerSocket ss = new ServerSocket(30000); Socket socket = ss.accept(); PrintStream ps = new PrintStream(socket.getOutputStream()); ps

c-C语言数据库编程，往数据库中写入一条数据，编译出错

问题描述 C语言数据库编程,往数据库中写入一条数据,编译出错 #include #include #include char userid[10] = "gaps/gaps"; int main() { char yw_xh[8] = "2"; char yw_xm[20] = "王小二"; char yw_xb = 'W'; char yw_yx[50] = "气象学院"; int yw_ywcj = 80; int yw_

VS2013 C++串口编程，接收刷卡器数据，调试显示字符串中的字符无效

问题描述 VS2013 C++串口编程,接收刷卡器数据,调试显示字符串中的字符无效 C++代码: hcom = CreateFile(_T("COM3"), GENERIC_READ | GENERIC_WRITE, 0, NULL, OPEN_EXISTING , FILE_ATTRIBUTE_NORMAL, NULL); if (hcom == INVALID_HANDLE_VALUE) { return; } SetupComm(hcom, 1024, 1024); COMMTI

请问在C#窗口编程中，如何将 DataGridView控件中的数据（包括头文字和之后的行列数据）用txt文本文件格式输出来

问题描述请问在C#窗口编程中,如何将DataGridView控件中的数据(包括头文字和之后的行列数据)用txt文本文件格式输出来解决方案解决方案二:http://blog.sina.com.cn/s/blog_4c1f37df0100hk5g.html

Java网络编程从入门到精通（34）：读写缓冲区中的数据---使用get和put方法按顺序读写单个数据

本文为原创,如需转载,请注明作者和出处,谢谢! 上一篇:Java网络编程从入门到精通(33):非阻塞I/O的缓冲区(Buffer) 对于缓冲区来说,最重要的操作就是读写操作.缓冲区提供了两种方法来读写缓冲区中的数据:get.put方法和array方法.而get.put方法可以有三种读写数据的方式:按顺序读写单个数据.在指定位置读写单个数据和读写数据块.除了上述的几种读写数据的方法外,CharBuffer类还提供了用于专门写字符串的put和append方法.在本文及后面的文章中将分别介绍这

mfc windows编程-急急急！怎么在MFC在已读文件中修改数据？

问题描述急急急!怎么在MFC在已读文件中修改数据? 我用windows的CreateFile函数来读写文件数据的,我现在遇到一个问题就是在已经可读的文件当中再次写数据,写的开始要清除里面的数据在进行写.急求解啊!!!

猜你喜欢

惊现CSS3 filter

看了一篇文章,才开始知道原来不止IE才有filter,原来CSS3也有.这篇文章的链接:http://www.xuanfengge.com/css3-grayscale-black-and-white ...

从spinner中开始新的activity

问题描述从spinner中开始新的activity 需要实现的功能是spinner中一个选项可以开始一个新的activity.但是应用每次执行到这都会崩溃.我用了intent和onItemSelec ...

Frontpage2000中文教程：第二章创建一个站点并管理它

frontpage|创建|教程|站点|中文从本章开始,我们来学习制作你的第一个主页:) 首先我们要知道,我们说的个人主页,说专业一点,应该说是个人网站.怎么说呢,因为一个网站,是由许许多多的网页,图 ...

行业网站的最佳设计方案

很多设计师认为做好了企业网站就一定能够做好行业网站的设计,其实对设计来说行业网站和企业网站的设计截然不同,对整个网站的创意.风格.整体框架布局.文字编排.图片的合理利用,空间的合理安排上面等-有着许多 ...

学习网页技巧：css布局中的居中问题

css|技巧|网页|问题如何使DIV居中主要的样式定义如下: body {TEXT-ALIGN: center;}#center { MARGIN-RIGHT: auto; MARGIN-LEFT ...

ASP.NET 2.0 缓存翻译草稿

asp.net|缓存命名空间: System.Web.Caching ,这个空间是ASP.NET的基础结构中的重要部分,比如:session就是存储在cache中的. Cache对象有两种级别的访问 ...

我要成名

近年来,"草根"阶层中的一些人热衷通过各种方式让自己出名,不惜一切.甚至不择手段.近日,一位叫袁智勇的人将出名寄望于博客,准备花费五百万元把北京.上海.天津等五十一座大中城市网吧的 ...

数据整形入门

数据数据整形=============数据整形或分层的记录集能显示一个树状结构或相关记录.应用数据整形必须: 1.使用MSDataShape OLEDB提供者 Provider=MSDataShap ...

国外优秀sitmap地图生成工具推荐

sitemap对于SEOer来说是基本的基本知识了,记得刚接触seo的时候一直在找生成Sitemap.xml文件的工具,之前也推荐了一款国产老虎Sitemap生成器.但缺点是效率很慢,功能也很简单 ...

站内目录层次优化的3个原则

很多关于站内目录优化的文章都是说:要让URL尽量的短,要让URL的层次尽量的少.但是,站长们你们真的理解网站的层次如何计算吗?如果你还是看URL中有多少个"/"来判断URL的层次, ...

C++风格的文件输入输出流

输出主要由重载的左移操作符(<<)来完成,输入主要由重载的右移操作符(>>)完成. >>a表示将数据放入a对象中. <<a表示将a对象中存储的数据拿出 ...

将Lua嵌入到自己的程序中

原文:http://www.codeproject.com/KB/cpp/lua.aspx 介绍本文介绍将Lua嵌入到自己程序中的方法. 什么是Lua Lua是具有简单数据描述的扩展编程语言(动态解 ...

监听以太网(3) Packet32数据结构说明

Packet32包中的数据结构: 第一个重要的数据结构:_ADAPTER(关于Network Adapter的) typedef struct _ADAPTER { // 一个打开的NPF drive ...

Java语言的修饰符

类.方法.成员变量和局部变量的可用修饰符修饰符类成员方法构造方法成员变量局部变量 abstract Y Y _ _ _ static _ Y _ Y _ public Y Y Y Y _ ...

笔记本电脑怎么开启免费wifi

笔记本电脑怎么开启免费wifi 在网页上搜索360wifi,选择图中所示的地方进入. 选择360wifi的普通下载即可. 进入下载后的360wifi,设置账号密码保存,并退出 ...

Win7玩极品飞车10出现卡顿如何解决

1.打开运行窗口输入mmc ; 2.右上角"文件"-"添加/删除管理单元"-双击"任务计划程序"-在弹出的窗口点击确定-再点击确定; 2 ...

设置Word表格的边框线为无、删除Word表格的线条

要想设置Word表格的边框线条不显示出来,最好的办法就是设置线条为无,即不启用边框线.这是最好的办法,方法如下: 选中表格,如下图,然后点击鼠标右键,弹出如下图的菜单. 如上图,选择"表 ...

U盘不能放置过大文件怎么办

检查了一下U盘的属性,发现U盘的格式是FAT32的,问题就出在这里了,因为FAT32的U盘最大支持4G的整体文件写入,像一些大于4G的高清蓝光的视频就无法复制进入U盘.碰到这种情况我们需要将U盘的 ...

link环境下制作一款《订餐软件》，手机上除了使用&amp;quot;andro&amp;quot;以外，还有什么办法可以对接网页？

问题描述 link环境下制作一款<订餐软件>,手机上除了使用"andro"以外,还有什么办法可以对接网页? link环境下制作一款<订餐软件>,手机上除了使 ...

远程发布静态页用什么方式是最常见的？

问题描述就是编辑操作的服务器在内网点生成静态页后文件存入到一个对外的服务器上这两个服务器间采用什么方式去实现是最常见的解决方案解决方案二:没有什么"最常见"的.因为软件是创造 ...

[经典面试题]二分查找问题汇总

[算法]二分查找算法 1.[给定一个有序(非降序)数组A,可含有重复元素,求最小的i使得A[i]等于target,不存在则返回-1.] [题目] 给定一个有序(非降序)数组A,可含有重复元素,求最小的 ...

跨国公司招聘“冻结” 人事调整出现四大现象

22岁的猎头Julia最近有些烦,大学毕业后进入猎头行业的她,到现在都没有接到职业生涯的第一个单子. "最近很多客户都冻结了招聘指标,微软.SAP等行业内的巨头公司都明显放缓了招人计划,这让 ...

新手求助，有关javaGUI的问题，求帮忙！！谢谢

问题描述新手求助,有关javaGUI的问题,求帮忙!!谢谢 import java.awt.*; import javax.swing.*; public class SKK{ public sta ...

卸载Microsoft Virtual WiFi Miniport Adapter 方法

在使用了某软件,将笔记本的网络作为wifi热点后,出现了原有无线网卡和"不能识别的网络"两个网络. 后面在设备管理器中发现了Microsoft Virtual WiFi Minip ...

【极客blog图文讲解】ruby以及Jekyll的环境配置（针对mac linux）

(转载请注明出处:http://blog.csdn.net/buptgshengod) 一.背景你还在为想建立个人网站而没有免费稳定空间而苦恼么?这里将图文并茂讲解最geek的个人主页 ...

spring-hibernate注解id用了sqlserver的关键字user_id

问题描述 hibernate注解id用了sqlserver的关键字user_id 如题,如何才能一注解的方式吧映射的字段名改成:[user_id]:我试过用@column(name='[user_id ...

通过layout布局上下显示两个datagrid表格。但是下面的表格不显示分页。

问题描述通过layout布局上下显示两个datagrid表格.但是下面的表格不显示分页. 通过layout布局上下两部分.上下显示两个datagrid表格. 在写分页的时候,上面的datagrid是 ...

揭秘主打O2O的街库网失败的原因

街库网是在前两年在广州发起的O2O项目,而自2011年7月创立以后最后到2013年8月倒下,这家公司可谓花了两年的时间烧光了据称数千万的融资.而在O2O这个词鼓噪耳膜的今天,对街库的失败原因从O2O模 ...

在一个很长的对象List中查找某个属性

问题描述有一个参数对象List,count大概是几万个,现在要在这些参数里面查找出所有"描述"这条属性中包含"用户"和"推荐"这两个词语的 ...

北京 Smart OS风起云——云计算解决方案

风起云隶属于北京百汇数字星空网络技术有限公司是全球领先的高性能云基础架构(IaaS)提供商,由美国Joyent公司和香港联科集团提供技术支持.风起云在北京.上海.香港等多个地点架设了数据中心. 风起云 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.022 s.