问题标签 [java-pair-rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1310 浏览

scala - 在 Scala 中迭代 RDD Iterable

所以我是 Scala 的新手,刚开始使用 RDD 和函数式 Scala 操作。

我试图迭代我的​​ Pair RDD的值,并通过应用定义的函数返回Var1存储的值的平均值,以便最终返回是 Var1 的唯一列表,每个列表都有一个关联。我在弄清楚如何迭代这些值时遇到了很多麻烦。 Var2averageAvgVar2

*编辑:我有以下类型声明:

我有以下功能:

我在 Scala 的尝试是尝试执行以下操作:

  1. 将 RDD 对 Iterable 拆分为Var1-Var2.
  2. 按 的键分组Var1并创建关联的数组Var2
  3. 将我的average函数应用于每个数组Var2
  4. AvgVar2将关联Var1的作为 RDD 的集合返回

*编辑:

一些示例输入数据rdds

一些示例输出数据:

*编辑:工作scala代码行:

0 投票
0 回答
88 浏览

java - 如何将两个 JavapairRDD 组合成一个自定义的 JavapairRDD?

我根据从不同 API 端点接收到的数据创建了以下 JavaPairRdds。

期望的输出:

基本上,我希望第一个 RDD 的值成为所需 RDD 中的键,并将第二个 RDD 中与该 list_id 对应的 item_details 组作为所需 RDD 的值,即,teacherListRDD 我尝试了不同的方法来做到这一点,但无法获得所需的输出。

0 投票
1 回答
116 浏览

java - 使用java将pairRDD转换为spark中的数据集

如何使用 java 从 pairRDD 创建 Spark 数据集。能否请你帮忙?

0 投票
1 回答
981 浏览

java - 如何在给定的rdd上应用flatMapToPair?

我有一个JavaPairRDD<String, List<Tuple2<Integer, Integer>>>名为rddA. 例如(收集后rddA[(word1,[(187,267), (224,311), (187,110)]), (word2,[(187,200), (10,90)])]:. 因此,例如,word1是键和值是[(187,267), (224,311), (187,110)])]

我如何定义相应JavaPairRDD<Integer, List<Integer>>的以获得以下输出:

因此,获得的JavaPairRDD包括三个键:187, 22410。例如,键187具有[267, 110, 200]列表值。

0 投票
1 回答
102 浏览

java - 使用 scala 将 JavapairRDD 转换为数据帧

我有以下格式的 javapairRDD

键是多边形,值是多边形中的一个点

例如:

如何将其转换javapairRDDDataframe三列?

df: String, double, double

这里我的第一列是一个多边形,第二列是经度,第三列是纬度

任何帮助将不胜感激

0 投票
0 回答
42 浏览

java - 从 IntelliJ 中的 Java SparkContext 访问 JavaPairRDD 中的第一个元素时出错

我正在尝试在 MacBook Pro 上运行来自 IntelliJ Idea 的示例 Java/Spark 代码。

我的爪哇:

另外,我跑过:

在带有 pom.xml 的文件夹中。

它运作良好。

我的代码:

我收到错误:

当我对此进行调试时,我发现:

我不知道为什么我得到这个。我做错什么了吗 ?或者我错过了一些为 Spark 设置的东西?

谢谢

0 投票
2 回答
194 浏览

java - 如果其中一个值为空,如何在 Java 中获取元组?索引出界

我知道第二个列表没有更多的值,但我想null在这种情况下存储。例如

而不是这个,我得到错误

我知道原因,因为我无法从 wtpList 中检索更多内容,因为它有 3 个元素。但是如果值不存在,我可以存储 null 。

0 投票
1 回答
117 浏览

java - java.lang.OutOfMemoryError: Java heap space AND org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4

我尝试执行代码,但出现以下错误: java.lang.OutOfMemoryError: Java heap space org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4

该代码可以在小文件(一些 kb)上执行,但在“大”文件(5mb)上我得到错误。我尝试增加 VM 内存和 spark.driver.memory 但我再次遇到相同的错误。

0 投票
0 回答
34 浏览

sorting - 交换和排序 JavaPairRDD按价值

抱歉,如果这个问题已经得到解答,但我似乎无法让它工作,因此这篇文章。

我的代码:

我继续symbol not found,当我这样做时class PairFunction也会出现这个错误method does not override or implement a method from a supertypemvn package

我正在尝试做的事情:

  1. 字数
  2. 然后交换(键,值)对
  3. 然后按键排序(降序)
  4. 最后合并以将输出保存在 1 个文件中(而不是 2 个)

非常感谢任何帮助,谢谢。

0 投票
0 回答
12 浏览

java - 如何将多个 JavaPairRDD(差异对象)组合成一个新对象类型的 JavaPairRDD(具有多个对象字段)

我有两个具有三种不同对象类型的 JavaPairRDD

现在,我想将它们组合成一个 JavaPairRDD<Integer, Model> modelPairRDD,其中 Model 类是

最好的方法是什么?有人可以在这里帮忙吗?谢谢。