在阅读了查询优化技术之后,我开始了解以下技术。
1. Indexing - bitmap and BTree
2. Partitioning
3. Bucketing
我了解了分区和分桶之间的区别,以及何时使用它们,但我仍然对索引的实际工作方式感到困惑。索引的元数据存储在哪里?是存储它的名称节点吗?即,实际上在创建分区或存储桶时,我们可以在 hdfs 中看到多个目录,这解释了查询性能优化,但如何可视化索引?尽管图片中有分区和分桶,但它们真的在现实生活中使用了吗?
请帮我解决上述问题,hadoop 和 hive 开发者社区是否有专门的页面?