我有两个脚本可以解析原始日志中的数据并将其写入 HIVE 中的 ORC 表中。一个脚本创建更多列,另一个创建更少。date
两个表都按字段分区。
结果,我有不同大小的文件的 ORC 表。列数较多的表由许多小文件组成(每个分区内每个文件约 4MB),列数较少的表由几个大文件组成(每个分区内每个文件约 250 MB)。
我想这是因为 ORC 中的 stripe.size 设置而发生的。但我不知道如何检查现有表的条带大小。“show create”和“describe”等命令不会显示任何自定义设置,这意味着表的条带大小应等于 256 MB。
我正在寻找任何建议来检查现有 ORC 表的 stripe.size。或解释 ORC 表中的文件大小如何取决于该表中的数据。
当我使用 Map Reduce 从该表中读取数据时,PsIt 很重要,并且对于具有大文件的表,有少量的 reducer。