问题标签 [java-pair-rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何相交不同的JavaPairRDD
我有两个不同的 JavaPairRdd 一个带有 Key1,value 和第二个带有 key2,value 。我试图实现的是合并它们,但只获得具有相同值的项目。
我尝试了以下方法:
其中 filtersRdd 包含 key:Country , value 和 filteredsmallRdd 包含: key:id , value 。并且我需要哪些元素具有相同的值,与交集我认为比较唯一的关键,我得到一个空的解决方案,知道如何做到这一点吗?
java - 如何在 javapairrdd 中使用 containsAll 和 contains 过滤器
我有 2 个集合,一个是“列表”,另一个是“pairRdd2”,其中包含如下所述的数据。
如果 mypairRdd2 包含列表中提到的所有值,我正在尝试使用 containsAll 应用过滤器。预期结果是 joe,{US,UK}
有人可以强调我做错了什么...
java - Java Spark如何保存一个JavaPairRDD, 哈希表> 归档?
经过一些复杂的聚合后,我得到了这个“ JavaPairRDD<HashSet<String>, HashMap<String, Double>>
”RDD,想将结果保存到文件中。我相信saveAsHadoopFile
这样做是一个很好的 API,但是在为saveAsHadoopFile(path, keyClass, valueClass, outputFormatClass, CompressionCodec)
. 任何人都可以帮忙吗?
java - JavaPairRDD 可以在 Spark Java 中使用 Array 而不是 Tuple2 吗?
我阅读了“Learning Spark”一书,例如 5-14,我注意到 aJavaPairRDD<String[]>
已声明。我很确定 JavaPairRDD 只能采用 Tuple2s(即 Key 和 Value),但我不确定是否存在某种奇怪的从 String[] 到 Tuple2 的隐式转换。
除了这个确切的例子,我在网上找不到任何其他例子。
这是书中页面的链接。
java - JavaPairRDD 到数据集在火花
我有 JavaPairRDD 格式的数据
我尝试使用下面的代码
但是如何生成具有 3 列的数据集???由于上述代码的输出为我提供了 2 列中的数据。任何指针/建议???
java - 将 JavaPairRdd 写入 Csv
JavaPairRdd 具有saveAsTextfile
功能,您可以使用它以文本格式保存数据。
但是,我需要将数据保存为 CSV 文件,以便稍后与 Neo4j 一起使用。
我的问题是:
如何以 CSV 格式保存 JavaPairRdd 的数据?或者有没有办法将rdd从:
至:
java - 将 Java-Pair-Rdd 转换为 Rdd
我需要将我的 Java-pair-rdd 转换为 csv :
所以我想把它转换成rdd,来解决我的问题。
我想要的是让我的 rdd 从:
至 :
我看到在那个问题和这个问题中是可能的(PySpark:将一对RDD转换回常规RDD)所以我问如何在java中做到这一点?
问题更新
我的JavaPairRdd的类型是 Type :
这是包含的行的形式:
这里的关键(dr5rvey,dr5ruku)
是:值是[(2,01/09/2013 00:09,01/09/2013 00:27,N,1,-73.9287262,40.75831223,-73.98726654,40.76442719,2,3.96,16,0.5,0.5,4.25,0,,21.25,1,)]
我原来的JavaRdd的类型是:
java - 什么是对不相交集上的行进行聚类的正确 JavaRDD 转换
我在JavaPairRDD<String, MyPojo>
whereMyPojo
是一个带有属性的pojoHashSet<String> values
中设置了我的行(我们称之为它)。
现在我想根据与MyPojo.values
.
例如:
<Row K1 : MyPojo (values: [A,B,C])>
<Row K2 : MyPojo (values: [A,B])>
<Row K3 : MyPojo (values: [D,E,F])>
我想用键合并行K1, K2
。
apache-spark - Apache-spark 错误:将行写入 sequenceFile 时任务失败
我正在创建一个 javaPairRDD 并使用 apache-spark 将其保存到 sequenceFileFormat。Spark 版本是 2.3。我在普通的 4 节点集群上运行它,路径也是普通的 hdfs 路径。我正在使用火花代码(Java)来做这件事:
但是当我尝试运行代码时,我得到以下异常
apache-spark - 如何从 JavaPairRDD 中获取一系列元素
我正在尝试使用 Spark 从 HBase 获取数据。
但我需要从一个范围内获取元素。例如:第 1000 条记录到第 2000 条记录。