我想将一些 JavaRDD 集合的不同存储到 Spark 中的文件中?
通过使用 RDD 的 distinct() 方法,我无法达到同样的效果。
我的猜测是 RDD 将每个元素视为一个单独的实例。在这种情况下,我们如何才能实现与众不同。
以下是代码片段,有人可以帮忙吗?
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("Xml Spark Demo");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaSQLContext sqlContext = new org.apache.spark.sql.api.java.JavaSQLContext(
sc);
// Load a text file and convert each line to a JavaBean.
JavaRDD<String> dataFromFile = sc.textFile(
"/home/kedarnath/Rentals/inputData/temp-01.xml").map(
new ParseAgentFromXml());
//Need distinct values here
dataFromFile.distinct().saveAsTextFile("/home/kedarnath/Rentals/testOutputDistinct.txt");
}
提前致谢,
~基达