当我通过 PigServer java 类执行猪脚本时,会创建很多 Jobxxx.jar。我知道这些是正在发送到 Hadoop 集群的 Map/Reduce 作业。因为我有一个相当复杂的脚本,所以我知道这将被分成许多不同的工作。但是,我很困惑,为什么这些 jar 文件必须这么大。当然,它们都包含我的 UDF 的代码,它不是那么大,但它们也包含例如整个(分解的)org/apache/pig 结构。生成的 jar 文件每个都超过 7 MB。
在将它们发送到 hadoop 集群之前,如何防止这些文件变得如此之大?