本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。
时间: 2024-10-22 03:07:41
本讲义出自Wes McKinney在Spark Summit East 2017上的演讲,对于使用Python编程以及并行化和扩大数据处理方面,Spark已成为一个受欢迎和成功的框架,但是在很多案例中,使用PySpark的任务处理要比使用Scala编写的效率差,而且在Python环境与Spark主机之间推拉数据也将增加开销,本次演讲将验证和分析使用一些Python库进行序列化以及互操作性问题。