提出问题
表中的数据量越来越大,当 分区 不能 更细粒的划分数据时,会采用 分桶 技术将数据更细粒度的划分和管理
原理
数据按照某个字段的Hash值放入某个桶中
通过分桶,将数据均匀地分布到不同的桶中,提高查询的并行度和性能
每个桶是一个文件
好处
- 提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。
- 支持随机抽样:分桶可以方便地进行随机抽样操作,从而进行数据分析和调试。
参考:
https://blog.csdn.net/zcs2312852665/article/details/135126851
https://blog.csdn.net/qq_35180983/article/details/82902943