问题标签 [java-pair-rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

30 问题

0 投票

1 回答

196 浏览

java - 如何相交不同的JavaPairRDD

我有两个不同的 JavaPairRdd 一个带有 Key1,value 和第二个带有 key2,value 。我试图实现的是合并它们，但只获得具有相同值的项目。

我尝试了以下方法：

其中 filtersRdd 包含 key:Country , value 和 filteredsmallRdd 包含: key:id , value 。并且我需要哪些元素具有相同的值，与交集我认为比较唯一的关键，我得到一个空的解决方案，知道如何做到这一点吗？

2017-12-26T00:32:21.080

0 投票

1 回答

206 浏览

java - 如何在 javapairrdd 中使用 containsAll 和 contains 过滤器

我有 2 个集合，一个是“列表”，另一个是“pairRdd2”，其中包含如下所述的数据。

如果 mypairRdd2 包含列表中提到的所有值，我正在尝试使用 containsAll 应用过滤器。预期结果是 joe,{US,UK}

有人可以强调我做错了什么...

java apache-spark rdd java-pair-rdd

2018-02-20T11:35:33.817

0 投票

1 回答

401 浏览

java - Java Spark如何保存一个JavaPairRDD, 哈希表> 归档？

经过一些复杂的聚合后，我得到了这个“ JavaPairRDD<HashSet<String>, HashMap<String, Double>>”RDD，想将结果保存到文件中。我相信saveAsHadoopFile这样做是一个很好的 API，但是在为saveAsHadoopFile(path, keyClass, valueClass, outputFormatClass, CompressionCodec). 任何人都可以帮忙吗？

java apache-spark hadoop java-pair-rdd

2018-04-27T04:47:40.870

0 投票

0 回答

175 浏览

java - JavaPairRDD 可以在 Spark Java 中使用 Array 而不是 Tuple2 吗？

我阅读了“Learning Spark”一书，例如 5-14，我注意到 aJavaPairRDD<String[]>已声明。我很确定 JavaPairRDD 只能采用 Tuple2s（即 Key 和 Value），但我不确定是否存在某种奇怪的从 String[] 到 Tuple2 的隐式转换。

除了这个确切的例子，我在网上找不到任何其他例子。

这是书中页面的链接。

java apache-spark tuples java-pair-rdd

2018-05-02T21:49:29.073

0 投票

1 回答

844 浏览

java - JavaPairRDD 到数据集在火花

我有 JavaPairRDD 格式的数据

我尝试使用下面的代码

但是如何生成具有 3 列的数据集？？？由于上述代码的输出为我提供了 2 列中的数据。任何指针/建议？？？

java apache-spark java-pair-rdd

2018-06-13T09:47:46.443

0 投票

1 回答

417 浏览

java - 将 JavaPairRdd 写入 Csv

JavaPairRdd 具有saveAsTextfile功能，您可以使用它以文本格式保存数据。

但是，我需要将数据保存为 CSV 文件，以便稍后与 Neo4j 一起使用。

我的问题是：

如何以 CSV 格式保存 JavaPairRdd 的数据？或者有没有办法将rdd从：

至：

java apache-spark rdd key-value java-pair-rdd

2018-07-09T13:36:32.150

0 投票

3 回答

2076 浏览

java - 将 Java-Pair-Rdd 转换为 Rdd

我需要将我的 Java-pair-rdd 转换为 csv ：

所以我想把它转换成rdd，来解决我的问题。

我想要的是让我的 rdd 从：

至：

我看到在那个问题和这个问题中是可能的（PySpark：将一对RDD转换回常规RDD）所以我问如何在java中做到这一点？

问题更新

我的JavaPairRdd的类型是 Type ：

这是包含的行的形式：

这里的关键(dr5rvey,dr5ruku)是：值是[(2,01/09/2013 00:09,01/09/2013 00:27,N,1,-73.9287262,40.75831223,-73.98726654,40.76442719,2,3.96,16,0.5,0.5,4.25,0,,21.25,1,)]

我原来的JavaRdd的类型是：

java apache-spark rdd key-value java-pair-rdd

2018-07-11T10:23:53.180

0 投票

1 回答

77 浏览

java - 什么是对不相交集上的行进行聚类的正确 JavaRDD 转换

我在JavaPairRDD<String, MyPojo>whereMyPojo是一个带有属性的pojoHashSet<String> values中设置了我的行（我们称之为它）。

现在我想根据与MyPojo.values.

例如：

<Row K1 : MyPojo (values: [A,B,C])>

<Row K2 : MyPojo (values: [A,B])>

<Row K3 : MyPojo (values: [D,E,F])>

我想用键合并行K1, K2。

java apache-spark rdd java-pair-rdd

2018-09-04T19:58:05.353

0 投票

0 回答

331 浏览

apache-spark - Apache-spark 错误：将行写入 sequenceFile 时任务失败

我正在创建一个 javaPairRDD 并使用 apache-spark 将其保存到 sequenceFileFormat。Spark 版本是 2.3。我在普通的 4 节点集群上运行它，路径也是普通的 hdfs 路径。我正在使用火花代码（Java）来做这件事：

但是当我尝试运行代码时，我得到以下异常

apache-spark sequencefile java-pair-rdd

2018-09-12T10:37:08.773

0 投票

0 回答

35 浏览

apache-spark - 如何从 JavaPairRDD 中获取一系列元素

我正在尝试使用 Spark 从 HBase 获取数据。

但我需要从一个范围内获取元素。例如：第 1000 条记录到第 2000 条记录。

apache-spark hbase rdd java-pair-rdd

2018-09-25T16:14:40.433

1 2 3 4 5 6 7 8 9 10

问题标签 [java-pair-rdd]

问题更新

Reference