《Scala机器学习》一一3.1　安装Spark

3.1　安装Spark
如果读者还没有安装过Spark，可从http://spark.apache.org/downloads.html下载预先编译好的Spark包。在写本书时的发布版本为1.6.1。

图3-1　本章建议的下载链接http://spark.apache.org/downloads.html
读者也可通过下面的链接下载完整的源代码来构建Spark：

命令将下载必要的依赖并在Spark目录中创建spark-2.0.0-SNAPSHOT-bin-alex-spark-build-2.6-yarn.tgz文件，其版本是2.0.0，这是在写本书时最新的发行版本。一般来说，如果不是对最新功能感兴趣，不建议从主分支进行构建。如果需要一个发行版本，可以从相应标签迁出（checkout）。通过git branch -r命令可以获得有效版本的完整列表。spark*.tgz文件是在有Java JRE的计算机上运行Spark所需的所有文件。
发行版本都带有docs/building-spark.md文件，它介绍了用于构建Spark的其他选项，包括增量Scala编译器zinc。完整的Scala 2.11支持的功能会出现在Spark 2.0.0的下一个版本中。

时间： 2024-07-29 18:57:12

《Scala机器学习》一一3.1　安装Spark的相关文章

《Scala机器学习》一一导读

前言这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据.九个月前,当我受邀写作本书时,我的第一反应是:Scala.大数据.机器学习,每一个主题我都曾彻底调研过,也参加了很多的讨论,结合任何两个话题来写都具有挑战性,更不用说在一本书中结合这三个主题.这个挑战激发了我的兴趣,于是就有了这本书.并不是每一章的内容都像我所希望的那样圆满,但技术每天都在快速发展.我有一份具体的工作,写作只是表达我想法的一种方式. 下面先介绍机器学习.机器学习经历了翻天

《Scala机器学习》一一

3.1 安装Spark 如果读者还没有安装过Spark,可从http://spark.apache.org/downloads.html下载预先编译好的Spark包.在写本书时的发布版本为1.6.1. 图3-1 本章建议的下载链接http://spark.apache.org/downloads.html读者也可通过下面的链接下载完整的源代码来构建Spark: 命令将下载必要的依赖并在Spark目录中创建spark-2.0.0-SNAPSHOT-bin-alex-spark-build-2.6-

《Spark Cookbook 中文版》一1.2　使用二进制文件安装Spark

1.2 使用二进制文件安装Spark Spark既可以通过源码安装也可以通过预编译二进制安装,下载地址为http://spark.apache.org.对于标准使用场景来说,二进制安装已经足够了,这里将主要介绍通过二进制文件安装Spark. 1.2.1 准备工作本书的所有教程都是适用于Ubuntu Linux系统的,不过应该也适用于任何POSIX环境.在安装Spark之前,首先需要安装好Java,并且配置好JAVA_HOME环境变量. 在Linux/Unix系统中,文件和目录的位置是有特定标准

《Scala机器学习》一一第3章使用Spark和MLlib

第3章使用Spark和MLlib 上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库.Spark是大数据生态系统中相对较新的成员,它基于内存使用而不是磁盘来进行优化.数据仍然可以根据需要转储到磁盘上,但Spark只有在明确指示这样做或活动数据集不适合内存时才会执行转储.如果节点出现故障或由于某些原因从内存中擦除信息,Spark会利用存储的信息来重新计算活动数据集.这与传统

《Scala机器学习》一一3.2　理解Spark的架构

3.2 理解Spark的架构并行化是将工作负载划分为在不同线程或不同节点上执行的子任务.下面介绍Spark实现并行化的原理,以及它如何管理子任务的执行和子任务之间的通信.3.2.1 任务调度Spark工作负载的划分由弹性分布式数据集(Resilient Distributed Dataset,RDD)的分区数决定,这是Spark的基本抽象和管道结构.RDD是一种可并行操作的.不可变元素的分区集合.具体细节可能取决于Spark的运行模式,图3-2为Spark任务/资源调度的示意图. 图3-2 通

《Scala机器学习》一一1.5　使用Scala和Spark的Notebook工作

1.5 使用Scala和Spark的Notebook工作通常,这五种数字汇总方式不足以对数据形成初步认识.描述性统计(descriptive statistics)的术语非常通用,并且可以采用非常复杂的方法来描述数据.分位数和帕雷托图(Pareto chart)都是描述性统计的例子,当分析一个以上的属性时,相关性也是.在大多数情况下都能查阅到这些数据汇总的方法,但通过具体的计算来理解这些方法也很重要.Scala或者Spark Notebook(https://github.com/Bridgew

《Scala机器学习》一一3.5　Spark的性能调整

3.5 Spark的性能调整虽然数据管道的高效执行是任务调度器优先考虑的,这是Spark驱动的一部分,有时Spark需要人为给出一些提示.Spark调度主要与两个参数有关:CPU和内存.当然其他资源(如磁盘和网络I/O)也在Spark性能方面发挥重要作用,但目前Spark.Mesos或YARN都不能主动管理它们. 要监控的第一个参数是RDD的分区数,可以从文件中读取RDD时明确指定.常见的Spark错误是分区太多,这样做需要提供更多的并行性.当任务开始/结束时间相对较小的情况下,这样做也可以工

《Scala机器学习》一一3.3　应用

3.3 应用下面会介绍Spark/Scala中的一些实际示例和库,具体会从一个非常经典的单词计数问题开始.3.3.1 单词计数大多数现代机器学习算法需要多次传递数据.如果数据能存放在单台机器的内存中,则该数据会容易获得,并且不会呈现性能瓶颈.如果数据太大,单台机器的内存容纳不下,则可保存在磁盘(或数据库)上,这样虽然可得到更大的存储空间,但存取速度大约会降为原来的1/100.另外还有一种方式就是分割数据集,将其存储在网络中的多台机器上,并通过网络来传输结果.虽然对这种方式仍有争议,但分析表明

《Scala机器学习》一一1.1　Scala入门

1.1 Scala入门如果已经安装了Scala,可以跳过本节.可以从http://www.scala-lang.org/download/下载最新版本的Scala,本书的Scala版本为2.11.7,操作系统为Mac OS X El Capitan 10.11.5.读者可以选择自己喜欢的版本,不过可能会遇到与其他包(如Spark)的兼容性问题.开源软件的一个通病就是所采用的技术可能会滞后几个版本. 大多数情况需要确保所下载的版本和推荐的版本完全一致.因为不同版本间的差异会导致隐蔽的错误,由此带

猜你喜欢

三步去掉 Word 2010 文档页眉上的横线

最近,在使用 Word2010 编辑文档时发现文档的上方总是出现一条横线,打印时该横线也被打印出来,很是恼人. 不过,经过本人不断的摸索,发现只需以下三步即可去掉文档上的横线: 1. 打开文档后,在& ...

代理服务器如何设置连接

设置连接具体方法如下: 1.右击"网上邻居",然后选择"属性".在服务器桑安装了两块网卡,因此在"网络连接"中可以看到有两个本地连接.右 ...

Ajax.Net的onLoading及aspx页面的默认名字空间及ajaxpro的google组怎么没有一个chinese？

ajax|google|loading|名字空间|页面这是ajax.net作者做的onLoading demo.下载他的代码来看,有几点疑问:1,如果一个aspx页面没有后置代码cs类文件,或者在v ...

ASP:留言簿自动发E-Mail

ASP本身没有发送邮件的能力,但是如果你希望用ASP来发送E-MAIL(例如:你有一个消息,只想让那些在你的留言薄上留了言的上网者们知道,你希望上网者在你的留言薄上填写完成后,你的留言簿便自动将该消息 ...

光阴似箭我的7年站长之路

光阴似箭,不知道不觉,自己的站长道路已经走过7年了. 2000年就开始接触网络,被当时的QQ聊天和笑傲江湖所吸引.2001年,由于比较喜欢网络,注册了自己的第一个域名,并且在当时比较著名的K666下载 ...

C++内存管理变革(2)：最袖珍的垃圾回收器

概述 C/C++最被人诟病的,可能是没有一个内存垃圾回收器(确切是说没有一个标准的垃圾回收器).本文讨论的内容要点是,在C/C++中实现一个最袖珍的.功能受限的垃圾回收器.这个垃圾回收器区别于其他垃圾 ...

iOS开发中将文本信息本地化

文本信息本地化在本地化工作中占有很大的比例.包括了:应用名称本地化.系统按钮和信息本地化,以及静态文本信息本地化. 系统按钮和信息本地化还记得天气预报应用背后的"完成"按钮吗,它 ...

去除Dreamweaver表格宽度辅助线

Dreamweaver MX 2004新增加了表格宽度辅助线功能,让我们在编辑网页表格的时候能清楚地看到表格中各单元的宽度以及变化,很直观. 但是如果我们不想让Dreamweaver MX ...

QQ输入法怎么快捷输入HTML语言代码？

QQ输入法怎么快捷输入HTML语言代码? 安装好QQ拼音,在输入法状态条点右键----属性设置; QQ输入法进入高级设置----自定义短语设置; (自定义短语设置前面的勾打上才 ...

Flash教你制作悠闲来喝茶动画教程

一.打开Flash,新建一个空白文档,设置下背景色,我这里设置的是绿色,你可以根据你的喜好去设置哈~ 然后按CTRL+F8新建一个影片剪辑,命名为茶. 二.开始画茶杯(因为刚新建影片剪辑了,所以这 ...

解决光驱不读盘的问题

1. 光驱的驱动是否安装正确.或者它的驱动程序损坏了. 通常在WINDOWS中都自带了光驱的驱动,不需要另外添加.如果光驱的驱动程序安装的不是它自己的驱动程序. 也会出现光驱丢失的情况.这种情况的出现 ...

如何用预期式设计保持用户体验简单易行？

现如今,用户大多深陷于碎片化的时间和过量的信息,所以用户更加青睐简约而现代的网页设计."少即是多"是这类网站的设计哲学,少而精准的内容设计方式和内容策略让访客从沉重的信息压力中 ...

PS鼠绘大气磅礴的楼宇

photoshop教程完成图这次的大作<梦阁>是我在业余时间利用下班的空闲绘画出来的,耗时有5个多月,它的精度高,细节丰富,所以文件比较大,创作此作品的灵感来源于梦里,有时候梦里的景象让 ...

iframe式ajax调用示例

想必大家对ajax调用有所熟悉,下面为大家介绍下iframe式ajax调用,需要的朋友可以参考下 1.新建 a.html 代码如下: <!doctype html> <htm ...

网站基于flash实现的Banner图切换效果代码

具体实现代码如下: 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" " ...

360防丢卫士是什么?

大家可能不是很了解360防丢卫士功能是什么,下文将会介绍360防丢卫士功能等方面的消息,从该硬件名字可以看出"防丢"是主打功能,那么除了防丢之外,还有别的功能吗? 360刚刚上 ...

笔记本分辨率怎么调节笔记本电脑屏幕分辨率调到多少合适？

不管是平板,智能手机还是笔记本,屏幕分辨率都是屏幕上的一大卖点,今天脚本之家小编主要为大家分享一下笔记本屏幕分辨率相关知识.对于笔记本屏幕分辨率,很多用户主要关心的是分辨率怎么调?分辨率多少合适等 ...

新浪微博OAuth详解以Python为例

让我先吐槽一下新浪微博的那个 OAuth 文档,写得就像个锤子一样! 1. 什么是OAuth OAuth 是一套认证形式,并被逐渐推荐为一套标准,它的老家在 http://oauth.net . OA ...

hadoop-hive无法进行条件查询

问题描述 hive无法进行条件查询用hive可以建表,执行不加条件的查询可以,如select * from t_hive:如果加上条件进行查询则失败,如select * from t_hive wh ...

Spring中如何实现插入数据后调用存储过程，且在同一事务里，如何证明。

问题描述 Spring中如何实现插入数据后调用存储过程,且在同一事务里,如何证明.Spring是如何管理事务的,我在插入后如何自动提交的. 解决方案解决方案二:<propertyname=&q ...

如果转换ARGB 到RGB

问题描述 c#里面貌似没有RGB函数,系统颜色有ARGB,如何转换后,提取系统颜色值的R,GB.直接取intr=label1.ForeColor.Rintg=label1.ForeColor.Gint ...

c#-C# 如何在网络中获取客户端电脑硬件的信息

问题描述 C# 如何在网络中获取客户端电脑硬件的信息我想通过自己写代码的形式获取使用我们软件的人进行电脑绑定,现在此账号在其他电脑登陆解决方案客户端获取电脑硬件信息解决方案二: 除非别人安装了 ...

asp.net中C#获取字符串中汉字的个数的具体实现方法_实用技巧

符串可以包括数字,字母,汉字或者其他的字符.使用Char类型的IsDigit静态方法可以判断字符串中的字符是否为数字,使用Char类型中的IsLetter静态方法可以判断字符串中是否为字母.我们来实现 ...

SEO与域名的关系

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 很荣幸能够被中国seo论坛选拔为第一期seo人才免费培 ...

垃圾网站站长的一封忏悔信

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客站长团购云主机技术大厅当年在上大学的时间第一个项 ...

关于datatable整个复制到ms sql的表中的问题。。。

问题描述我在程序中建立了一个datatabledt1..里边有一些数据...在数据库中有一个表demo...dt1和demo的结构都是一样的..我现在想把dt1复制到demo表中...我不想一条条的 ...

intellij idea-我的Intellij idea 装了一个python插件后，就启动不了了

问题描述我的Intellij idea 装了一个python插件后,就启动不了了我的Intellij idea 装了一个python插件后,就启动不了了,报错如图请大神帮忙看看,谢谢了! 解决方 ...

notes邮件的问题！

问题描述请教各位notes高手们,我的notes邮件数据库里每次收到新邮件可以红色显示在Inbox里面,而且可以点开查看,但是一旦我关闭了查看的邮件后,Inbox里刚收到的邮件就没有了.不过在Vie ...

云存储Dropbox收购Bubbli

5月21日,美国云存储公司2003.html">Dropbox宣布,该公司已经收购了照片技术开发商Bubbli. Bubbli开发了一些特别的方式把3D技术与传统的2D照片查看方式融合 ...

急求一个简单点的酒店管理系统《要没有别的也行》

问题描述小弟最近初学swing,马上要有一个SWING项目答辩,不知道该做个啥好,跪求各位牛人,出出注意!!在下感激不尽.小人邮箱:316436377@qq.com 解决方案解决方案二:去你们图书 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.