问题标签 [java-pair-rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 在 Scala 中迭代 RDD Iterable
所以我是 Scala 的新手,刚开始使用 RDD 和函数式 Scala 操作。
我试图迭代我的 Pair RDD的值,并通过应用定义的函数返回Var1
存储的值的平均值,以便最终返回是 Var1 的唯一列表,每个列表都有一个关联。我在弄清楚如何迭代这些值时遇到了很多麻烦。 Var2
average
AvgVar2
*编辑:我有以下类型声明:
我有以下功能:
我在 Scala 的尝试是尝试执行以下操作:
- 将 RDD 对 Iterable 拆分为
Var1-Var2
. - 按 的键分组
Var1
并创建关联的数组Var2
。 - 将我的
average
函数应用于每个数组Var2
AvgVar2
将关联Var1
的作为 RDD 的集合返回
*编辑:
一些示例输入数据rdds
:
一些示例输出数据:
*编辑:工作scala代码行:
java - 如何将两个 JavapairRDD 组合成一个自定义的 JavapairRDD?
我根据从不同 API 端点接收到的数据创建了以下 JavaPairRdds。
期望的输出:
基本上,我希望第一个 RDD 的值成为所需 RDD 中的键,并将第二个 RDD 中与该 list_id 对应的 item_details 组作为所需 RDD 的值,即,teacherListRDD 我尝试了不同的方法来做到这一点,但无法获得所需的输出。
java - 使用java将pairRDD转换为spark中的数据集
如何使用 java 从 pairRDD 创建 Spark 数据集。能否请你帮忙?
java - 如何在给定的rdd上应用flatMapToPair?
我有一个JavaPairRDD<String, List<Tuple2<Integer, Integer>>>
名为rddA
. 例如(收集后rddA
)[(word1,[(187,267), (224,311), (187,110)]), (word2,[(187,200), (10,90)])]
:. 因此,例如,word1
是键和值是[(187,267), (224,311), (187,110)])]
。
我如何定义相应JavaPairRDD<Integer, List<Integer>>
的以获得以下输出:
因此,获得的JavaPairRDD
包括三个键:187, 224
和10
。例如,键187
具有[267, 110, 200]
列表值。
java - 使用 scala 将 JavapairRDD 转换为数据帧
我有以下格式的 javapairRDD
键是多边形,值是多边形中的一个点
例如:
如何将其转换javapairRDD
为Dataframe
三列?
df: String, double, double
这里我的第一列是一个多边形,第二列是经度,第三列是纬度
任何帮助将不胜感激
java - 从 IntelliJ 中的 Java SparkContext 访问 JavaPairRDD 中的第一个元素时出错
我正在尝试在 MacBook Pro 上运行来自 IntelliJ Idea 的示例 Java/Spark 代码。
我的爪哇:
另外,我跑过:
在带有 pom.xml 的文件夹中。
它运作良好。
我的代码:
我收到错误:
当我对此进行调试时,我发现:
我不知道为什么我得到这个。我做错什么了吗 ?或者我错过了一些为 Spark 设置的东西?
谢谢
java - 如果其中一个值为空,如何在 Java 中获取元组?索引出界
我知道第二个列表没有更多的值,但我想null
在这种情况下存储。例如
而不是这个,我得到错误
我知道原因,因为我无法从 wtpList 中检索更多内容,因为它有 3 个元素。但是如果值不存在,我可以存储 null 。
java - java.lang.OutOfMemoryError: Java heap space AND org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4
我尝试执行代码,但出现以下错误: java.lang.OutOfMemoryError: Java heap space org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 4
该代码可以在小文件(一些 kb)上执行,但在“大”文件(5mb)上我得到错误。我尝试增加 VM 内存和 spark.driver.memory 但我再次遇到相同的错误。
sorting - 交换和排序 JavaPairRDD按价值
抱歉,如果这个问题已经得到解答,但我似乎无法让它工作,因此这篇文章。
我的代码:
我继续symbol not found
,当我这样做时class PairFunction
也会出现这个错误method does not override or implement a method from a supertype
mvn package
我正在尝试做的事情:
- 字数
- 然后交换(键,值)对
- 然后按键排序(降序)
- 最后合并以将输出保存在 1 个文件中(而不是 2 个)
非常感谢任何帮助,谢谢。
java - 如何将多个 JavaPairRDD(差异对象)组合成一个新对象类型的 JavaPairRDD(具有多个对象字段)
我有两个具有三种不同对象类型的 JavaPairRDD
现在,我想将它们组合成一个 JavaPairRDD<Integer, Model> modelPairRDD,其中 Model 类是
最好的方法是什么?有人可以在这里帮忙吗?谢谢。