问题标签 [java-pair-rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
196 浏览

java - 如何相交不同的JavaPairRDD

我有两个不同的 JavaPairRdd 一个带有 Key1,value 和第二个带有 key2,value 。我试图实现的是合并它们,但只获得具有相同值的项目。

我尝试了以下方法:

其中 filtersRdd 包含 key:Country , value 和 filteredsmallRdd 包含: key:id , value 。并且我需要哪些元素具有相同的值,与交集我认为比较唯一的关键,我得到一个空的解决方案,知道如何做到这一点吗?

0 投票
1 回答
206 浏览

java - 如何在 javapairrdd 中使用 containsAll 和 contains 过滤器

我有 2 个集合,一个是“列表”,另一个是“pairRdd2”,其中包含如下所述的数据。

如果 mypairRdd2 包含列表中提到的所有值,我正在尝试使用 containsAll 应用过滤器。预期结果是 joe,{US,UK}

有人可以强调我做错了什么...

0 投票
1 回答
401 浏览

java - Java Spark如何保存一个JavaPairRDD, 哈希表> 归档?

经过一些复杂的聚合后,我得到了这个“ JavaPairRDD<HashSet<String>, HashMap<String, Double>>”RDD,想将结果保存到文件中。我相信saveAsHadoopFile这样做是一个很好的 API,但是在为saveAsHadoopFile(path, keyClass, valueClass, outputFormatClass, CompressionCodec). 任何人都可以帮忙吗?

0 投票
0 回答
175 浏览

java - JavaPairRDD 可以在 Spark Java 中使用 Array 而不是 Tuple2 吗?

我阅读了“Learning Spark”一书,例如 5-14,我注意到 aJavaPairRDD<String[]>已声明。我很确定 JavaPairRDD 只能采用 Tuple2s(即 Key 和 Value),但我不确定是否存在某种奇怪的从 String[] 到 Tuple2 的隐式转换。

除了这个确切的例子,我在网上找不到任何其他例子。

这是书中页面的链接。

0 投票
1 回答
844 浏览

java - JavaPairRDD 到数据集在火花

我有 JavaPairRDD 格式的数据

我尝试使用下面的代码

但是如何生成具有 3 列的数据集???由于上述代码的输出为我提供了 2 列中的数据。任何指针/建议???

0 投票
1 回答
417 浏览

java - 将 JavaPairRdd 写入 Csv

JavaPairRdd 具有saveAsTextfile功能,您可以使用它以文本格式保存数据。

但是,我需要将数据保存为 CSV 文件,以便稍后与 Neo4j 一起使用。

我的问题是:

如何以 CSV 格式保存 JavaPairRdd 的数据?或者有没有办法将rdd从:

至:

0 投票
3 回答
2076 浏览

java - 将 Java-Pair-Rdd 转换为 Rdd

我需要将我的 Java-pair-rdd 转换为 csv :

所以我想把它转换成rdd,来解决我的问题。

我想要的是让我的 rdd 从:

至 :

我看到在那个问题和这个问题中是可能的(PySpark:将一对RDD转换回常规RDD)所以我问如何在java中做到这一点?

问题更新

我的JavaPairRdd的类型是 Type :

这是包含的行的形式:

这里的关键(dr5rvey,dr5ruku)是:[(2,01/09/2013 00:09,01/09/2013 00:27,N,1,-73.9287262,40.75831223,-73.98726654,40.76442719,2,3.96,16,0.5,0.5,4.25,0,,21.25,1,)]

我原来的JavaRdd的类型是:

0 投票
1 回答
77 浏览

java - 什么是对不相交集上的行进行聚类的正确 JavaRDD 转换

我在JavaPairRDD<String, MyPojo>whereMyPojo是一个带有属性的pojoHashSet<String> values中设置了我的行(我们称之为它)。

现在我想根据与MyPojo.values.

例如:

<Row K1 : MyPojo (values: [A,B,C])>

<Row K2 : MyPojo (values: [A,B])>

<Row K3 : MyPojo (values: [D,E,F])>

我想用键合并行K1, K2

0 投票
0 回答
331 浏览

apache-spark - Apache-spark 错误:将行写入 sequenceFile 时任务失败

我正在创建一个 javaPairRDD 并使用 apache-spark 将其保存到 sequenceFileFormat。Spark 版本是 2.3。我在普通的 4 节点集群上运行它,路径也是普通的 hdfs 路径。我正在使用火花代码(Java)来做这件事:

但是当我尝试运行代码时,我得到以下异常

0 投票
0 回答
35 浏览

apache-spark - 如何从 JavaPairRDD 中获取一系列元素

我正在尝试使用 Spark 从 HBase 获取数据。

但我需要从一个范围内获取元素。例如:第 1000 条记录到第 2000 条记录。