我目前Spark 2.4.0
在 Java 模式下使用。
我有一个操作链创建一个 JavaRDD
或一个Dataset
. 然后在这一步,通过对它们应用一些R
命令甚至完整的R
脚本来继续这些操作对我来说真的很方便,这似乎对我必须做的工作更有效率,对于接下来的步骤。
我搜索了很多,但似乎程序员在使用时要么选择Java
语言R
(带SparkR
)Spark
,但不要一起使用它们。我想知道它是否可能,以及如何。
在我看来,作为andRDD
的同一个基类,我应该能够做这样的事情:Java
R
sc.oneRfunction(myJavaRDD.rdd())
在它的帮助下,Spark
它们将整合在一起......
但是,如果它导致一个陷阱,去一些过于复杂的东西(特别是在设置方面),如果Spark
没有计划用于这种用途(实际上是混合语言),请警告我。也许我应该避免尝试这个。
非常感谢,