我们有一个由 Hadoop+Hive+Spark+Dremio 组成的堆栈,因为 Spark 为单个 Hive 分区写入许多 HDFS 文件(取决于工作人员)Dremio 在查询表时失败,因为超出了 HDFS 文件的数量限制,有没有无需手动在 spark 中设置较少数量的工人来解决此问题的方法吗?(我们不想失去 spark 分布式性能和好处)。
问问题
407 次
我们有一个由 Hadoop+Hive+Spark+Dremio 组成的堆栈,因为 Spark 为单个 Hive 分区写入许多 HDFS 文件(取决于工作人员)Dremio 在查询表时失败,因为超出了 HDFS 文件的数量限制,有没有无需手动在 spark 中设置较少数量的工人来解决此问题的方法吗?(我们不想失去 spark 分布式性能和好处)。