hive教程:分桶表(未完) 作者:马育民 • 2024-07-28 22:56 • 阅读:10011 # 提出问题 表中的数据量越来越大,当 **分区 不能 更细粒的划分数据时**,会采用 **分桶** 技术将数据更细粒度的划分和管理 # 原理 数据按照某个字段的Hash值放入某个桶中 通过分桶,**将数据均匀地分布到不同的桶中**,提高查询的并行度和性能 **每个桶是一个文件** # 好处 - 提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。 - 支持随机抽样:分桶可以方便地进行随机抽样操作,从而进行数据分析和调试。 参考: https://blog.csdn.net/zcs2312852665/article/details/135126851 https://blog.csdn.net/qq_35180983/article/details/82902943 原文出处:https://malaoshi.top/show_1IX88ibHQhtV.html