问题标签 [java-pair-rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30 问题

0 投票

1 回答

1310 浏览

scala - 在 Scala 中迭代 RDD Iterable

所以我是 Scala 的新手，刚开始使用 RDD 和函数式 Scala 操作。

我试图迭代我的 Pair RDD的值，并通过应用定义的函数返回Var1存储的值的平均值，以便最终返回是 Var1 的唯一列表，每个列表都有一个关联。我在弄清楚如何迭代这些值时遇到了很多麻烦。 Var2averageAvgVar2

*编辑：我有以下类型声明：

我有以下功能：

我在 Scala 的尝试是尝试执行以下操作：

将 RDD 对 Iterable 拆分为Var1-Var2.
按的键分组Var1并创建关联的数组Var2。
将我的average函数应用于每个数组Var2
AvgVar2将关联Var1的作为 RDD 的集合返回

*编辑：

一些示例输入数据rdds：

一些示例输出数据：

*编辑：工作scala代码行：

2019-02-01T06:54:52.900

0 投票

0 回答

88 浏览

java - 如何将两个 JavapairRDD 组合成一个自定义的 JavapairRDD？

我根据从不同 API 端点接收到的数据创建了以下 JavaPairRdds。

期望的输出：

基本上，我希望第一个 RDD 的值成为所需 RDD 中的键，并将第二个 RDD 中与该 list_id 对应的 item_details 组作为所需 RDD 的值，即，teacherListRDD 我尝试了不同的方法来做到这一点，但无法获得所需的输出。

java apache-spark hadoop java-pair-rdd

2019-04-01T02:28:14.673

0 投票

1 回答

116 浏览

java - 使用java将pairRDD转换为spark中的数据集

如何使用 java 从 pairRDD 创建 Spark 数据集。能否请你帮忙？

java apache-spark java-pair-rdd

2019-12-05T09:11:54.163

0 投票

1 回答

981 浏览

java - 如何在给定的rdd上应用flatMapToPair？

我有一个JavaPairRDD<String, List<Tuple2<Integer, Integer>>>名为rddA. 例如（收集后rddA）[(word1,[(187,267), (224,311), (187,110)]), (word2,[(187,200), (10,90)])]：. 因此，例如，word1是键和值是[(187,267), (224,311), (187,110)])]。

我如何定义相应JavaPairRDD<Integer, List<Integer>>的以获得以下输出：

因此，获得的JavaPairRDD包括三个键：187, 224和10。例如，键187具有[267, 110, 200]列表值。

java apache-spark java-pair-rdd

2020-02-04T07:24:54.560

0 投票

1 回答

102 浏览

java - 使用 scala 将 JavapairRDD 转换为数据帧

我有以下格式的 javapairRDD

键是多边形，值是多边形中的一个点

例如：

如何将其转换javapairRDD为Dataframe三列？

df: String, double, double

这里我的第一列是一个多边形，第二列是经度，第三列是纬度

任何帮助将不胜感激

java scala apache-spark java-pair-rdd geospark

2020-02-24T22:26:09.917

0 投票

0 回答

42 浏览

java - 从 IntelliJ 中的 Java SparkContext 访问 JavaPairRDD 中的第一个元素时出错

我正在尝试在 MacBook Pro 上运行来自 IntelliJ Idea 的示例 Java/Spark 代码。

我的爪哇：

另外，我跑过：

在带有 pom.xml 的文件夹中。

它运作良好。

我的代码：

我收到错误：

当我对此进行调试时，我发现：

我不知道为什么我得到这个。我做错什么了吗？或者我错过了一些为 Spark 设置的东西？

谢谢

java apache-spark java-pair-rdd

2020-03-27T00:18:32.007

0 投票

2 回答

194 浏览

java - 如果其中一个值为空，如何在 Java 中获取元组？索引出界

我知道第二个列表没有更多的值，但我想null在这种情况下存储。例如

而不是这个，我得到错误

我知道原因，因为我无法从 wtpList 中检索更多内容，因为它有 3 个元素。但是如果值不存在，我可以存储 null 。

java list tuples indexoutofboundsexception java-pair-rdd

2021-01-04T15:36:56.053

0 投票

1 回答

117 浏览

java - java.lang.OutOfMemoryError: Java heap space AND org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4

我尝试执行代码，但出现以下错误： java.lang.OutOfMemoryError: Java heap space org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4

该代码可以在小文件（一些 kb）上执行，但在“大”文件（5mb）上我得到错误。我尝试增加 VM 内存和 spark.driver.memory 但我再次遇到相同的错误。

java apache-spark rdd java-pair-rdd

2021-01-31T18:37:11.460

0 投票

0 回答

34 浏览

sorting - 交换和排序 JavaPairRDD按价值

抱歉，如果这个问题已经得到解答，但我似乎无法让它工作，因此这篇文章。

我的代码：

我继续symbol not found，当我这样做时class PairFunction也会出现这个错误method does not override or implement a method from a supertypemvn package

我正在尝试做的事情：

字数
然后交换（键，值）对
然后按键排序（降序）
最后合并以将输出保存在 1 个文件中（而不是 2 个）

非常感谢任何帮助，谢谢。

sorting spark-submit java-pair-rdd

2021-04-27T18:41:42.863

0 投票

0 回答

12 浏览

java - 如何将多个 JavaPairRDD（差异对象）组合成一个新对象类型的 JavaPairRDD（具有多个对象字段）

我有两个具有三种不同对象类型的 JavaPairRDD

现在，我想将它们组合成一个 JavaPairRDD<Integer, Model> modelPairRDD，其中 Model 类是

最好的方法是什么？有人可以在这里帮忙吗？谢谢。

java apache-spark apache-spark-sql java-pair-rdd

2021-11-19T19:50:45.247

1 2 3 4 5 6 7 8 9 10

问题标签 [java-pair-rdd]

Reference