我正在尝试使用 Google Cloud Data Fusion。我正在使用连接器加入 2 个 BigQuery 表 + 写回 BigQuery。在预览中我收到此错误: java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.(Ljava/io/InputStream;Z)V
我已将作业设置为 Spark 而不是 Map/Reduce,因为 Map/reduce 在预览中会产生内存不足问题。当我部署和运行作业时,它会由于“容器因超出内存限制而被 YARN 杀死”而崩溃。
最大的表大约有 600 万条记录,没有任何嵌套字段。较小的表是 66 条记录。
我没有指定任何分区。
调试/解决此问题的推荐方法是什么?增加工人数/内存?