问题描述
想请教一下各位大虾如果一个RDD有2个partitions分布在2个机器上(一个机器上一个),如果每个分区中的数据的key的hash值等于所在分区的index,那么在hash的过程中能保证物理机器中没有数据移动么?比如在分区0上数据是(0,0),在分区1上是(1,1),那么hashre-partitioning的时候能保证(0,0)和(1,1)还在原来所在物理机器上么?有什么方法能保证这样么?因为这样在实际操作中可以节省网络消耗先谢了
解决方案
解决方案二:
这个应该是SPARK自己决定的吧。RDD内方法你看看。
时间: 2024-12-14 10:03:27