本发明公开了一种Spark平台Shuffle过程压缩算法决策方法。本方法为:1)Spark平台根据RDD的依赖关系生成有向无环图DAG,并根据RDD的依赖关系将DAG划分成不同的阶段;2)根据用户提供的所在集群的基础数据以及目标作业信息,计算Shuffle过程用到压缩算法的两个不同过程不使用压缩算法时以及使用不同压缩算法时带来的总收益、总消耗;3)根据不同压缩配置下得到的所述总收益、总消耗计算执行该目标作业的整个Shuffle过程中对应的总开销;然后根据总开销确定该集群运行该目标作业采用的配置组合。本发明保证了Spark平台的稳定性,具有可扩展性、成本低、效率高等优点。


