[hadoop+spark+python]大数据实战随手笔记

1.提交任务

指令(我配置了spark-submit的环境变量)

spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10 fielname

逐条解释如下:

(1)–class org.apache.spark.examples.SparkPi

设置运行的环境,java或者yarn

(2)–master spark://192.168.12.233:7077

设置spark服务的地址,格式为 spark:// +

(3)–executor-memory 10G

分配内存,这个属性每个worker都会分配10G,根据实际情况分配

(4)–total-executor-cores 10

分配运行cpu核数,不超过总核数即可

(5)fielname

要运行的文件,相对路径或者绝对路径都可以,如果是python文件一定要能在命令行环境运行,requirment和包环境都要满足才行,我一般是把项目打包写好setup.py先编译一遍在运行主程序

时间： 2025-01-30 14:56:33

[hadoop+spark+python]大数据实战随手笔记的相关文章

Hadoop之后：大数据的未来

ZDNet至顶网服务器频道 04月03日 :在实时数据世界里,为什么我们还这么执着于Hadoop?根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据[注]的代表技术,尽管其声誉仍然超过实际部署情况. 还没有真正部署Hadoop的企业可能想要再等一等.而随着Apache Spark等其他技术(Storm.Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来. 批处理不是重点 Cloudera的Doug Cutting是一个非常聪明的人

拥抱Hadoop领跑大数据实现价值回报

本文讲的是拥抱Hadoop领跑大数据实现价值回报,当大数据风暴来临的时候,你是否已经做好准备?2012年对于企业来讲最为企业CIO所关心的话题之一必然要属于大数据.我们看到无论是个人还是企业,随着互联网.3G技术的普及以及企业自身数据的积累,大量的数据被产生,而这些大数据最终在存储.安全以及价值转换将成为企业关注的焦点. 相关数据调查显示,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB.根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.

深刻！阿里、宝洁大数据实战

虎嗅F&M;创新节的"如何洞察用户:阿里与宝洁的大数据实战"专场里,阿里巴巴数据委员会会长车品觉.宝洁中国市场研究部总经理李霈.英特尔中国研究院首席工程师吴甘沙和股票雷达创始人冯月聊到一个很有趣的话题:作为传统公司,宝洁很羡慕阿里能够轻易收集到真实.实时.全面的的数据,但车品觉却说,大数据公司对数据处理同样存在两个难点: 第一大数据太大,大数据公司跟传统公司一样需要做"采样"的工作. 第二是很难还原真实需求."用户研究上来讲,大数据给予的力量就是还

Facebook专家：Hadoop不足以处理大数据

文章讲的是Facebook专家:Hadoop不足以处理大数据,随着大数据在各个业务领域的发展和应用,相关的技术和工具也层出不穷,其中Hadoop框架受到更多的关注和应用.Facebook分析主管Ken Rudin最近在纽约举行的一个Strata+Hadoop世界大会发表主题演讲时表示,不要小看关系型数据库技术的价值.他认为,Hadoop编程框架可能是"大数据"运动的代名词,但它并不是企业从大规模存储的非结构化信息中得到价值的唯一工具. 有很多很普及的大数据的观念需要被质疑,首先一点就是

Apache Hadoop已成为大数据行业发展背后的驱动力

随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据.组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因.如今Apache Hadoop已成为大数据行业发展背后的驱动力. Facebook的工程师相信他们运行着最大的基于Hadoop的数据收集平台.Facebook基础设施工程副总裁Jay Parikh表示Facebook大多数的网站数据存储在单一的集群之中,容量可达100PB,Facebook的集群相比于其他公司的集群可谓是独树一帜.

Hadoop在电信大数据业务系统中的应用

文章讲的是Hadoop在电信大数据业务系统中的应用,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/re

何刚：Hadoop成为打开大数据之门金钥匙

文章讲的是何刚:Hadoop成为打开大数据之门金钥匙,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/r

如何洞察用户：阿里与宝洁的大数据实战

昨天的虎嗅F&M创新节的"如何洞察用户:阿里与宝洁的大数据实战"专场里＿a href="http://zdb.pedaily.cn/Enterprise/阿里巴巴/" target=_blank>阿里巴巴数据委员会会长车品觉.宝洁中国市场研究部总经理李霈.英特尔中国研究院首席工程师吴甘沙和股票雷达创始人冯月聊到一个很有趣的话题:作为传统公司,宝洁很羡慕阿里能够轻易收集到真实.实时.全面的的数据,但车品觉却说,大数据公司对数据处理同样存在两个难点: 第一

Amr Awadallah：通过来自Cloudera的Hadoop来压缩大数据 - 产品和技术

Amr Awadallah:通过来自http://www.aliyun.com/zixun/aggregation/13456.html">Cloudera的Hadoop来压缩大数据发布时间:2012.05.25 10:31 来源:赛迪网作者:赛迪网 [赛迪网讯]Cloudera创始人兼CTO Amr Awadallah近日访华,他表示,我们都知道如何去存储数据,但不知道如何去处理或者是回答一些关于数据的问题.我们可以通过使用Hadoop让数据存留时更长,完成数据良好