我正在编写 Spark 应用程序(单客户端)并处理许多我想在其上运行算法的小文件。他们每个人都使用相同的算法。但是不能将文件加载到同一个 RDD 中以使算法起作用,因为它应该在一个文件边界内对数据进行排序。
今天我一次处理一个文件,结果我的资源利用率很低(每个操作的数据量很小,开销很大)
有没有办法同时对多个 RDD 执行相同的操作/转换(并且只使用一个驱动程序)?还是我应该寻找另一个平台?因为这种操作模式对于 Spark 来说并不是经典的。
问问题
1307 次