摘要: 1.问题 原表数据1400MB左右; spark sql查询后对dataframe使用reparation,再写入结果表; 结果表有12个800多MB的parquet文件,严重膨胀。 2.结论 先说明两个函数区别: repartition : 把record完全打乱最终随机插入到10个文件 有Shu 阅读全文
posted @ 2022-09-01 15:18 江东邮差 阅读(513) 评论(0) 推荐(0) 编辑