在windows上面安装并用jupyter运行pyspark

intro
首先，这里介绍的方法很基本，大牛可以绕过了。

由于个人的测试需要，打算在自己的pc上面安pyspark，来熟悉MLlib。
翻了一下bing和狗，方法不少，试了linux虚拟机安装，vmware 下cloudera的安装。走到后面都会发现，这些方法并不合适，或者对机器有要求，或者对安装者的背景有要求。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
正文分隔行
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

这里推荐一个不需要太折腾，对机器也没什么要求的方法。原文地址：https://medium.com/@GalarnykMichael/install-spark-on-windows-pyspark-4498a5d8d66c
原网页好像被墙了，大家查看的时候注意一下

这里主要是把原文的方法列一下，加上我碰到的一些问题。

1，安装Anaconda 和 GOW（Gnu on windows）
前者的安装我就不写了。地址是：https://repo.continuum.io/archive/
我的机器上面装的miniconda。

GOW的地址：https://github.com/bmatzelle/gow/releases/download/v0.8.0/Gow-0.8.0.exe

GOW的作用是在cmd下面执行linux 命令。安装结束之后可以运行：

gow --list

如果安装正确，可以返回

Available executables: awk, basename, bash, bc, bison, bunzip2, bzip2, bzip2recover, cat, chgrp, chmod, chown, chroot, cksum, clear, cp, csplit, curl, cut, dc,dd, df, diff, diff3, dirname, dos2unix, du, egrep, env, expand, expr, factor, fgrep, flex, fmt, fold, gawk, gfind, gow, grep, gsar, gsort, gzip, head, hostid, hostname, id, indent, install, join, jwhois, less, lesskey, ln, ls, m4, make, md5sum, mkdir, mkfifo, mknod, mv, nano, ncftp, nl, od, pageant, paste, patch, pathchk, plink, pr, printenv, printf, pscp, psftp, putty, puttygen, pwd, rm, rmdir, scp, sdiff, sed, seq, sftp, sha1sum, shar, sleep, split, ssh, su, sum, sync, tac, tail, tar, tee, test, touch, tr, uname, unexpand, uniq, unix2dos, unlink, unrar, unshar, uudecode, uuencode, vim, wc, wget, whereis, which, whoami, xargs, yes, zip

2，安装spark

spark的地址：http://spark.apache.org/downloads.html

我选的是default的设置下的版本: spark-2.1.1-bin-hadoop2.7.tgz.
下载好后，记一下路径名称。

打开cmd prompt
mkdir C:\opt\spark
mv C:\Users\neal\Downloads\spark-2.1.1-bin-hadoop2.7.tgz C:\opt\spark\spark-2.1.1-bin-hadoop2.7.tgz
gzip -d spark-2.1.1-bin-hadoop2.7.tgz
tar xvf spark-2.1.1-bin-hadoop2.7.tar
以上是安装spark的过程，下面要安装winutils.exe
curl -k -L -o winutils.exe https://github.com/steveloughran/winutils/blOb/master/hadoop-2.6.0/bin/winutils.exe?raw=true

下面要确认java已经安装。

java官网地址：https://www.java.com/en/

3，设置路径

setx SPARK_HOME C:\opt\spark\spark-2.1.1-bin-hadoop2.7
setx HADOOP_HOME C:\opt\spark\spark-2.1.1-bin-hadoop2.7
setx PYSPARK_DRIVER_PYTHON ipython
setx PYSPARK_DRIVER_PYTHON_OPTS notebook
把“ ;C:\opt\spark\spark-2.1.0-bin-hadoop2.7\bin ”加到系统路径里面。如果没有系统权限，可以加入到用户路径下面。

到这一步，pyspark就已经装好了。

4，使用pyspark

pyspark --master local[2]

这个会打开ipython notebook。

sc = SparkContext.getOrCreate()

import numpy as np

TOTAL = 1000000
dots = sc.parallelize([2.0 * np.random.random(2) - 1.0 for i in range(TOTAL)]).cache()
print(dots.count())

如果得到的输出是’1000000‘,说明系统正常。如果出现error，可以回头看一下路径是否正确。

最后，我会继续用pyspark测试。如果有其他问题会在下面更新。

时间： 2025-01-01 14:17:17

在windows上面安装并用jupyter运行pyspark的相关文章

《循序渐进学Docker》——第2章初步体验 Docker 2.1 Windows下安装Docker

第2章初步体验Docker 上一章概括性地介绍了Docker的发展历史.组织结构.功能特性和使用场景等方面的内容.本章主要从实践的角度,介绍如何在本地搭建一个Docker运行环境. 由于大多数用户的个人电脑用的都是Windows系统,所以我们就先来讲讲在Windows环境下如何安装和运行Docker. 2.1 Windows下安装Docker 为了运行Docker,你的电脑必须安装64位Windows 7及以上版本的系统(包含Windows 8/8.1和Windows 10).另外,你要确保C

禁止Windows Server 2008系统自动运行模块安装服务

Windows Server 2008系统模块安装服务在服务器系统尝试通过网络进行在线更新时,往往会自动运行,在运行过程中我们时常会发现宝贵的系统CPU资源被大量消耗的现象. &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 大家知道,Windows Server 2008系统新增加了模块安装服务,该系统服务在服务器系统尝试通过网络进行在线更新时,往往会自动运行,在运行过程中我们时常会发现宝贵的系统CPU资源被

Windows 2003安装和配置活动目录服务

window 在Windows 2003中,各种网络服务以服务器角色出现,方便了用户对网络资源进行分配与管理.应用服务器角色对网络进行管理,均需要有活动目录服务.域名系统服务.动态主机配置协议服务.Windows Internet命名服务的配合与支持.本文将向你重点讲解上述活动目录服务务的实现方法与技巧. (一)什么是活动目录活动目录(Active Directory)是用于Windows 2003的目录服务.它存储着网络上各种对象的有关信息,并使该信息易于管理员和用户查找及使用.活动目录服务

Windows中安装Apache2和PHP4权威指南

apache|window Apache 2和PHP是创建交互式网站的流行方案,而且成本很低.在Windows中安装Apache 2是一件轻而易举的事情,但要使PHP 4与Apache 2配合无间地运行,就需要一定的技巧. 在PHP 4.3手册的Windows安装小节,没有解释如何让PHP与Apache 2配合使用,而有关Apache 2安装的小节缺失了你需要的大量信息.在网上公布的其他安装指南中,也包含了不少错误,使一些安装人员只好不断试验和犯错.例如,有些人甚至将PHP的DLL替换成其他PH

在Windows中安装Apache2和PHP4的权威指南

Windows中安装Apache2和PHP4权威指南_php技巧

Apache 2和PHP是创建交互式网站的流行方案,而且成本很低.在Windows中安装Apache 2是一件轻而易举的事情,但要使PHP 4与Apache 2配合无间地运行,就需要一定的技巧. 在PHP 4.3手册的Windows安装小节,没有解释如何让PHP与Apache 2配合使用,而有关Apache 2安装的小节缺失了你需要的大量信息.在网上公布的其他安装指南中,也包含了不少错误,使一些安装人员只好不断试验和犯错.例如,有些人甚至将PHP的DLL替换成其他PHP版本的DLL.OK,为了

在Windows中安装Apache2和PHP4的权威指南_php基础

Apache 2和PHP是创建交互式网站的流行方案,而且成本很低.在Windows中安装Apache 2是一件轻而易举的事情,但要使PHP 4与Apache 2配合无间地运行,就需要一定的技巧. 转自:动态网制作指南 www.knowsky.com 在PHP 4.3手册的Windows安装小节,没有解释如何让PHP与Apache 2配合使用,而有关Apache 2安装的小节缺失了你需要的大量信息.在网上公布的其他安装指南中,也包含了不少错误,使一些安装人员只好不断试验和犯错.例如,有些人甚至将P

在Windows上安装MySQL

mysql|window 可在Windows 95.Windows 98 或Windows NT 下运行MySQL.为了做到这一点,必须安装TCP/IP 支持环境,而且Winsock 软件必须至少为版本2. 在Windows 下可安装两种软件: ·独立程序,如为UNIX 安装的那种程序( mysqld 服务器与诸如m s y q l和mysladmin 这样的程序). ·M y ODBC,允许其他程序(如A c c e s s)与MySQL服务器通信的ODBC 的MySQL

在Windows下安装Apache+PHP3

apache|window 本文只讨论如何在Windows NT 4.0或Windows 2000下安装Apache+PHP3.我使用的Apache为apache_1_3_12_win32.exe.注意您得先安装PHP3哦,可以照我写的文档进行安装:在Windows下安装PHP3,注意不需要做这一步:二.软件安装->3->f).一.软件下载您可以从下列站点下载Windows版本的Apache Web Server软件: http://www.apache.org/dist/binaries/