[转]Spark SQL repartition 为啥生成的文件变大了？

1.问题原表数据1400MB左右； spark sql查询后对dataframe使用reparation，再写入结果表；结果表有12个800多MB的parquet文件，严重膨胀。 2.结论先说明两个函数区别： repartition ：把record完全打乱最终随机插入到10个文件有Shu