[转]Spark SQL repartition 为啥生成的文件变大了?

1.问题 原表数据1400MB左右; spark sql查询后对dataframe使用reparation,再写入结果表; 结果表有12个800多MB的parquet文件,严重膨胀。 2.结论 先说明两个函数区别: repartition : 把record完全打乱最终随机插入到10个文件 有Shu
posted @ 2022-09-01 15:18  江东邮差  阅读(513)  评论(0编辑  收藏  举报