学习Spark——那些让你精疲力尽的坑

这一个月我都干了些什么……

工作上,还是一如既往的写bug并不亦乐乎的修bug。学习上,最近看了一些非专业书籍,写点小感悟,我刚稍稍瞄了下,最近五篇居然都跟技术无关,看来我与本行业已经是渐行渐远了。

所以,趁着这篇博客,重拾自己,认清自己,要时刻谨记我是一名码农。不过,摸着良心说,最近的技术方面也是有所感悟和积累的,比如如何写好设计文档,如何使用延时队列,如何使用防刷技术等等。当然了,今天我们还是沿着“学习Spark”这条路继续走下去。

这篇就介绍下自己遇到的各种坑。我不知道各位是否遇到过并能轻松解决,反正我是被这些小问题搞得精疲力尽,故在此总结以备忘。

1.1 Scala与Intellij集成报错

在Scala安装成功后,准备到Intellij上写Scala代码,发现Scala都配好了(关于如何配置,网上资料很多),结果运行Scala程序时报错。

错误:


  1. Error:scalac: Multiple 'scala-library*.jar' files (scala-library.jar, scala-library.jar, scala-library.jar) in Scala compiler classpath in Scala SDK scala-sdk-2.12.2 

解决方法:在OverStackflow上找到了思路。在Intellij中打开project structure,删除已有的Scala的路径(我的Scala是安装在/usr/local/Cellar/scala/2.12.2路径下的),重新添加/usr/local/Cellar/scala/2.12.2/idea/lib目录即可。

改动前

改动后

1.2 Scala语法Intellij不认

在Intellij中写了一个Scala的HelloWorld,代码如下


  1. /** 
  2.  * Created by jackie on 17/5/7. 
  3.  */ 
  4. package com.jackie.scala.s510 
  5.  
  6. object HelloWorld { 
  7.   def main(args: Array[String]): Unit = { 
  8.     println("hello world") 
  9.  
  10.     println(increaseAnother(5)); 
  11.  
  12.     println(Array(1,2,3,4).map{(x:Int)=>x+1}.mkString(",")); 
  13.  
  14.     println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(",")); 
  15.  
  16.     println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(",")); 
  17.  
  18.     // test object 
  19.     var person = new Person() 
  20.     person.name_=("john") // name_=()对应java中的setter方法 
  21.     println("Person name:" + person.name) 
  22.  
  23.     person.name = "Jackie" 
  24.     println("Person name:" + person.name) 
  25.  
  26.     var mp = new MyPerson() 
  27.     mp.name_("alihaha") 
  28.     println("MyPerson name:" + person.name) 
  29.  
  30.     var pwp = new PersonWithParam("Jackie", 18) 
  31.     println("PersonWithParam:" + pwp.toString()) 
  32.  
  33.   } 
  34.  
  35.   def increaseAnother(x: Int): Int = x + 1 
  36.  
  37.  

运行的时候,报错mkString无法识别。

错误:mkString can't be resolved

解决方法:需要交代下我各个环境的版本参数,Intellij-14.0, jdk-8, scala-2.12.2。但是在Intellij中能选择的Scala最高版本只有2.11,所有后来将Intellij升级到2017.1版本,这时候还报错Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException,然后在Intellij中打开project structure,将scala由2.12.2换成2.11.7,问题解决。

1.3 Spark与Intellij集成的问题

Spark环境都安装好了,所以想在Intellij中运行Spark程序,但是在添加了Spark的相关依赖后,发现无法编译通过。

错误:


  1. Exception NoSuchMethodError: com.google.common.collect.MapMaker.keyEquivalence 

解决方法:实现声明,之前在maven中一直引用的都是spark-core2.10,这时候报错,我定位问题出在Guava上,然后找到所有间接依赖了Guava的jar,都exclude,问题还是没有解决。期间添加了Spark的很多依赖,试了都不行,最后试了下Spark-core2.11,问题解决(有的时候版本的兼容性真的很坑)。

1.4 hadoop上传本地文件到HDFS

如果想将本地文件上传到HDFS,使用hadoop fs -put localDir hdfsDir,前提是保证hadoop启动。

错误:


  1. jackie@jackies-MacBook-Pro:~|⇒  hadoop fs -put ~/Documents/doc/README.md / 
  2. 17/05/13 10:56:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  3. 17/05/13 10:56:40 WARN ipc.Client: Failed to connect to server: localhost/127.0.0.1:8020: try once and fail. 
  4. java.net.ConnectException: Connection refused 
  5.     at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) 
  6.     at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) 
  7.     at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) 
  8.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531) 
  9.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495) 
  10.     at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681) 
  11.     at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777) 
  12.     at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409) 
  13.     at org.apache.hadoop.ipc.Client.getConnection(Client.java:1542) 
  14.     at org.apache.hadoop.ipc.Client.call(Client.java:1373) 
  15.     at org.apache.hadoop.ipc.Client.call(Client.java:1337) 
  16.     at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:227) 
  17.     at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:116) 
  18.     at com.sun.proxy.$Proxy10.getFileInfo(Unknown Source) 
  19.     at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:787) 
  20.     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
  21.     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
  22.     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
  23.     at java.lang.reflect.Method.invoke(Method.java:498) 
  24.     at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:398) 
  25.     at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeMethod(RetryInvocationHandler.java:163) 
  26.     at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invoke(RetryInvocationHandler.java:155) 
  27.     at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeOnce(RetryInvocationHandler.java:95) 
  28.     at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:335) 
  29.     at com.sun.proxy.$Proxy11.getFileInfo(Unknown Source) 
  30.     at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:1700) 
  31.     at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1436) 
  32.     at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1433) 
  33.     at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81) 
  34.     at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1433) 
  35.     at org.apache.hadoop.fs.Globber.getFileStatus(Globber.java:64) 
  36.     at org.apache.hadoop.fs.Globber.doGlob(Globber.java:282) 
  37.     at org.apache.hadoop.fs.Globber.glob(Globber.java:148) 
  38.     at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1685) 
  39.     at org.apache.hadoop.fs.shell.PathData.expandAsGlob(PathData.java:326) 
  40.     at org.apache.hadoop.fs.shell.CommandWithDestination.getRemoteDestination(CommandWithDestination.java:195) 
  41.     at org.apache.hadoop.fs.shell.CopyCommands$Put.processOptions(CopyCommands.java:256) 
  42.     at org.apache.hadoop.fs.shell.Command.run(Command.java:164) 
  43.     at org.apache.hadoop.fs.FsShell.run(FsShell.java:315) 
  44.     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76) 
  45.     at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:90) 
  46.     at org.apache.hadoop.fs.FsShell.main(FsShell.java:378) 
  47. put: Call From jackies-macbook-pro.local/192.168.73.56 to localhost:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused 

解决方法:进入hadoop安装目录(我的是/usr/local/Cellar/hadoop)进入sbin下执行./start-all.sh启动hadoop服务。

1.5 Spark启动

上篇在配置Spark时没有配置spark-defaults.conf文件,所以在Spark安装目录下(我的是/usr/local/Spark)启动./start-all.sh出错。

错误:


  1. spark-shell 
  2. Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
  3. Setting default log level to "WARN". 
  4. To adjust logging level use sc.setLogLevel(newLevel). 
  5. 17/05/13 13:42:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  6. 17/05/13 13:42:51 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master 192.168.73.56:7077 
  7. org.apache.spark.SparkException: Exception thrown in awaitResult 
  8.     at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77) 
  9.     at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75) 
  10.     at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36) 
  11.     at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) 
  12.     at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59) 
  13.     at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167) 
  14.     at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83) 
  15.     at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88) 
  16.     at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96) 
  17.     at org.apache.spark.deploy.client.StandaloneAppClient$ClientEndpoint$$anonfun$tryRegisterAllMasters$1$$anon$1.run(StandaloneAppClient.scala:106) 
  18.     at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) 
  19.     at java.util.concurrent.FutureTask.run(FutureTask.java:266) 
  20.     at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
  21.     at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
  22.     at java.lang.Thread.run(Thread.java:745) 
  23. Caused by: java.io.IOException: Failed to connect to /192.168.73.56:7077 

解决方法:将Spark安装目录下的conf中的spark-defaults.conf.template拷贝一份出来,重命名为spark-defaults.conf,按照https://sanwen8.cn/p/3bac5Bj.html配置好,再启动Spark,发现还是报错


  1. https://sanwen8.cn/p/3bac5Bj.html Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
  2. Setting default log level to "WARN". 
  3. To adjust logging level use sc.setLogLevel(newLevel). 
  4. 17/05/13 14:19:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  5. 17/05/13 14:19:15 ERROR SparkContext: Error initializing SparkContext. 
  6. java.net.ConnectException: Call From jackies-MacBook-Pro.local/192.168.73.56 to 192.168.73.56:8021 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused 
  7.     at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) 

于是按照StackOverflow,将spark-defaults.conf中的spark.eventLog.enabled由true改为false,之后再启动成功。

注意:这里我反复配置了localhost和自己的ip,来回切换,最终证明只要在/etc/hosts中配置好ip对应映射的名称,可以直接用名称即可,不用写ip,而且要保持hadoop中的配置文件和spark中的配置文件要一致,否则针对会精疲力尽。

1.6 将运算任务交给Spark运行的报错

运行下面的一个Demo程序


  1. package com.jackie.scala.s513; 
  2.  
  3. import org.apache.spark.SparkConf; 
  4. import org.apache.spark.api.java.JavaPairRDD; 
  5. import org.apache.spark.api.java.JavaRDD; 
  6. import org.apache.spark.api.java.JavaSparkContext; 
  7. import org.apache.spark.api.java.function.FlatMapFunction; 
  8. import org.apache.spark.api.java.function.Function2; 
  9. import org.apache.spark.api.java.function.PairFunction; 
  10. import scala.Tuple2; 
  11.  
  12. import java.util.Arrays; 
  13. import java.util.Iterator; 
  14. import java.util.List; 
  15. import java.util.regex.Pattern; 
  16.  
  17. /** 
  18.  * Created by jackie on 17/5/13. 
  19.  */ 
  20. public class Simple 
  21.     private static final Pattern SPACE = Pattern.compile(" "); 
  22.  
  23.     public static void main(String[] args) throws Exception { 
  24.  
  25.         //创建一个RDD对象 
  26.         SparkConf conf=new SparkConf().setAppName("Simple").setMaster("local"); 
  27.  
  28.         //创建spark上下文对象,是数据的入口 
  29.         JavaSparkContext spark=new JavaSparkContext(conf); 
  30.  
  31.         //获取数据源 
  32.         JavaRDD<String> lines = spark.textFile("hdfs://jackie:8020/"); 
  33.  
  34.         /** 
  35.          * 对于从数据源得到的DStream,用户可以在其基础上进行各种操作, 
  36.          * 对于当前时间窗口内从数据源得到的数据首先进行分割, 
  37.          * 然后利用Map和ReduceByKey方法进行计算,当然最后还有使用print()方法输出结果; 
  38.          */ 
  39.         JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { 
  40.             @Override 
  41.             public Iterator<String> call(String s) { 
  42.                 return Arrays.asList(SPACE.split(s)).iterator(); 
  43.             } 
  44.         }); 
  45.  
  46.  
  47.         //使用RDD的map和reduce方法进行计算 
  48.         JavaPairRDD<String, Integer> ones = words.mapToPair( 
  49.                 new PairFunction<String, String, Integer>() { 
  50.                     @Override 
  51.                     public Tuple2<String, Integer> call(String s) { 
  52.                         return new Tuple2<String, Integer>(s, 1); 
  53.                     } 
  54.                 }); 
  55.  
  56.  
  57.         JavaPairRDD<String, Integer> counts = ones.reduceByKey( 
  58.                 new Function2<Integer, Integer, Integer>() { 
  59.                     @Override 
  60.                     public Integer call(Integer i1, Integer i2) { 
  61.                         return i1 + i2; 
  62.                     } 
  63.                 }); 
  64.  
  65.         List<Tuple2<String, Integer>> output = counts.collect(); 
  66.         for (Tuple2<?,?> tuple : output) { 
  67.             //输出计算结果 
  68.             System.out.println(tuple._1() + ": " + tuple._2()); 
  69.         } 
  70.  
  71.  
  72.         spark.stop(); 
  73.     } 

这个程序需要读取HDFS上根目录下的README.md文件,但是在此之前我执行了"hadoop namenode -format"(注意,这个操作引起了后面的一系列问题)。所以就准备重新使用hadoop fs -put localDir hdfsDir上传README.md,结果这时候报错

错误:


  1. hadoop fs -put /Users/jackie/Documents/doc/README.md / 
  2. 17/05/13 15:47:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  3. 17/05/13 15:47:16 WARN hdfs.DataStreamer: DataStreamer Exception 
  4. org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /README.md._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).  There are 0 datanode(s) running and no node(s) are excluded in this operation. 
  5.     at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1733) 
  6.     at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:265) 
  7.     at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2496) 
  8.     at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:828) 

后来发现是datanode没有启动,然后开始找datanode没有启动的原因,在这里http://www.aboutyun.com/thread-7931-1-1.html

文中解释:当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode中保存(即配置文件中dfs.data.dir在本地系统的路径)的current/VERSION文件只是你第一次格式化时保存的namenode的ID,因此就会造成datanode与namenode之间的id不一致。

解决方法:采取的做法是根据执行hadoop namenode –format得到成功的提示。

这时候再执行jps命令,我们就可以看到datanode了

类似的,同样是在执行hadoop fs -put /Users/jackie/Documents/doc/README.md /是报错如下


  1. hadoop fs -put /Users/jackie/Documents/doc/README.md / 
  2. 17/05/15 09:51:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
  3. 17/05/15 09:51:05 WARN ipc.Client: Failed to connect to server: jackie/192.168.73.56:8020: try once and fail. 
  4. java.net.ConnectException: Connection refused 
  5.     at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) 
  6.     at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717) 
  7.     at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206) 
  8.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531) 
  9.     at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495) 
  10.     at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681) 
  11.     at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777) 
  12.     at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409) 

一开始以为是ip的配置问题,但是反复修改无果,后来发现使用jps时,没有启动namenode,于是在网上找http://blog.csdn.net/bychjzh/article/details/7830508

于是在/usr/local/Cellar/hadoop/hdfs下删除原来在core-site.xml中配置的tmp目录,然后新建了hadoop_tmp目录,并在core-site.xml中修改成


  1. <property> 
  2.      <name>hadoop.tmp.dir</name> 
  3. <value>/usr/local/Cellar/hadoop/hdfs/hadoop_tmp</value> 
  4.     <description>A base for other temporary directories.</description> 
  5.   </property> 

并执行hadoop namenode –format,最后在使用start-all.sh启动所有的服务,执行上传文件成功

本文作者:杰锅锅

来源:51CTO

时间: 2024-12-15 05:20:56

学习Spark——那些让你精疲力尽的坑的相关文章

小弟近期在学习spark编程,请问各位大神spark可以处理视频文件吗?

问题描述 小弟近期在学习spark编程,请问各位大神spark可以处理视频文件吗? spark创建RDD的形式可以是 val text = sc.textFile("hdfs://......") 或者是 val text = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10), 3) 但这些都是对文本文件或者数组的操作,它能否对视频文件进行操作 比如 games.mp4 请各位大神不吝赐教

《Spark与Hadoop大数据分析》——3.2 学习Spark的核心概念

3.2 学习Spark的核心概念 在本节,我们要了解 Spark 的核心概念.Spark 提供的主要抽象是弹性分布式数据集(Resilient Distributed Dataset,RDD).因此,我们要了解 RDD 是什么,以及提供内存级性能和容错的 RDD 中包含的运算.但是,首先我们要学习使用 Spark 的方法. 3.2.1 使用 Spark 的方法 使用 Spark 有两种方法,即 Spark Shell 和 Spark 应用程序. 1. Spark Shell 这是可以利用 Sca

学习Angular中作用域需要注意的坑_AngularJS

Angular作用域 在用angular搭建的网页应用中,作用域(scope)这个概念是贯穿其中的.在angular的视图(view)中的很多指令是会创建一个作用域的,例如 ng-app , ng-controller 等.这个作用域就是我们在写控制器构造函数时注入的 $scope (angular1.2之前的版本),他是视图模型(view model)中的一个概念.我们的数据模型(model)就是定义在作用域中的. Angular作用域的坑 用过angular的人应该都会经过一个过程,就是刚开

『 Spark 』5. 这些年,你不能错过的 spark 学习资源

原文链接:『 Spark 』5. 这些年,你不能错过的 spark 学习资源 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来.写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了.若想深入了解,最好阅读参考文章和官方文档. 其次,本系列是基于目前最新的 spark 1.6.0 系列开始的,spa

从Storm和Spark 学习流式实时分布式计算的设计

0. 背景 最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛.本来想就写Spark源码分析的文章吧.但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够.因此,我将最近一直在做的系统架构的思路整理出来,形成此文.为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义. 本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间

学习从来不是一件简单地事情,然

之所以忽然提笔,是因为这段时间正好在业余时间系统地学习Spark,整个学习思路让我想起了大学期间学习<模拟电子电路>这门课的一些方法,个人觉得可以作为一个学习模板来和大家一起交流分享(本文只谈如何系统高效地学习一项技能或者一门课程,抱有突击学习目的的请绕道). 无论是学习Spark技术还是学习<模拟电子电路>课程,总结起来,大体都经历了这么几个阶段: 1. 初识(10%):系统地过一遍整个内容,<模电>就是大体听一遍老师的课程,Spark就到处看看相关的资料,在测试环境

(课程)基于Spark的机器学习经验

Hi,大家好!我是祝威廉,本来微博也想叫祝威廉的,可惜被人占了,于是改名叫·祝威廉二世.然后总感觉哪里不对.目前在乐视云数据部门里从事实时计算,数据平台.搜索和推荐等多个方向.曾从事基础框架,搜索研发四年,大数据平台架构.推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向. 今天会和大家分享三个主题. 不过限于时间,第三个只是会简单提及下, 等未来有机会可以更详细的分享. 如何基于Spark做机器学习(Spark-Shell其实也算的上即席查询了) 基于Spark做新词发

大数据漫谈:Spark如何引燃机器学习?

文章讲的是大数据漫谈:Spark如何引燃机器学习,如今,再讨论大数据,无论是互联网行业还是传统行业似乎都有话说.大数据改变了很多,也带来了很多.人工智能作为大数据的一个重要分支,也纷纷被各大企业划入未来的规划之内.不久前,李开复就曾说过,未来的人工智能市场将比如今大火的移动互联市场要大10倍. 本文将讨论Spark的开源机器学习库Spark ML.从Spark 1.6开始,Spark ML软件包中基于DataFrame的API推荐明显多于基于RDD的API,但是还未完全取代.从Spark 2.0

基于Spark的遗传算法

问题描述 刚刚开始学习Spark,看到很多资料上说Spark相比HadoopMapReduce更适合于解决迭代问题,而遗传算法是一种典型的迭代问题,为什么却几乎找不到用Spark实现遗传算法的例子呢.想向各位前辈请教,Spark究竟是否适合于求解遗传算法?此外,在Spark上实现遗传算法的基本思路是怎样的?希望各位前辈不吝赐教,谢谢.