问题标签 [rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 问题

0 投票

1 回答

4641 浏览

scala - 使用 org.apache.hadoop.conf.Configuration 设置 Spark 记录分隔符时操作 RDD 失败

我想用 Spark 处理一个大文本文件“mydata.txt”（实际文件大小约为 30GB）。它的记录分隔符是“\ |” 后跟“\n”。因为加载文件的默认记录分隔符（通过“sc.textFile”）是“\n”，所以我将org.apache.hadoop.conf.Configuration的“textinputformat.record.delimiter”属性设置为“\|\n”指定记录分隔符：

接下来我在spark-shell中执行了如下代码：</p>

到目前为止，一切都很好。然而，

为什么我不能操作 RDD “数据”，而使用时一切都很好sc.textFile("mydata.txt")？以及如何解决？

2014-11-28T03:26:11.187

0 投票

2 回答

911 浏览

amazon-s3 - 将 RDD 保存到文件会导致部件的 _temporary 路径

我在 Spark 中有要保存到 S3 的数据。推荐的保存方法是使用saveAsTextFileSparkContext上的方法，成功了。我希望数据将保存为“部分”。

我的问题是，当我去 S3 查看我的数据时，它已保存在一个文件夹名称_temporary中，带有一个子文件夹0，然后每个部分或任务都保存在自己的文件夹中。

例如，

导致文件喜欢

等等。我期待并看到过类似的东西

这是一个配置设置，还是我需要“提交”保存来解析临时文件？

amazon-s3 apache-spark rdd

2014-11-29T16:26:20.223

0 投票

1 回答

6874 浏览

scala - Spark 广播报错：超过 spark.akka.frameSize 考虑使用广播

我有一个名为“edges”的大数据

当我在独立模式下工作时，我能够收集、计数和保存这个文件。现在，在集群上，我收到了这个错误

与 .saveAsTextFile("edges") 相同

这是来自火花壳。我尝试使用选项
--driver-java-options "-Dspark.akka.frameSize=15"

但是当我这样做时，它只是无限期地挂起。任何帮助，将不胜感激。

** 编辑 **

我的独立模式是 Spark 1.1.0，我的集群是 Spark 1.0.1。

此外，当我对 RDD 进行计数、收集或保存时会发生挂起，但定义它或对其进行过滤器工作得很好。

scala apache-spark rdd

2014-11-30T21:30:23.210

0 投票

0 回答

222 浏览

join - 修改RDD的key

我的 RDD 具有以下结构-

我用一些偏移值运行两个过滤器操作 -

过滤器 Op1：

偏移量 = 0，时间范围从 320 到 324

过滤所有值从 (320-0) 到 (324-0) 的键

过滤RDD1：

过滤器 Op2：

偏移量 = 6，时间范围从 320 到 324

所有值从 (320-6):314 到 (324-6):318 的键都被过滤

过滤RDD2：

行动

我想将FilteredRDD1 中的 Val1 与 FilteredRDD2 中的 Val2相乘。

我可以想到一个选项，其中 -

使用偏移量修改FilteredRDD2的key，使两个FilteredRDD的key相同
对未修改的 FilteredRDD 和修改后的 FilteredRDD 进行连接
对连接的 RDD 执行 map 操作，并将 Val1 与 Val2 相乘

任何其他更好的选择，以便更少的洗牌和更少的中间操作。

蒂亚！

join key apache-spark rdd

2014-12-01T08:48:32.303

0 投票

4 回答

5788 浏览

scala - 在 groupBy 之后取 top N 并将它们视为 RDD

我想N在 groupByKey of 之后获取顶级项目并将（在下面）RDD的类型转换为值所在的位置topNPerGroupRDD[(String, Int)]List[Int]flatten

data是_

N每组的前几项计算如下：

结果是

由

如果我实现了，topNPerGroup.collect.foreach(println)将产生（预期的结果！）

scala apache-spark rdd

2014-12-03T15:09:17.397

0 投票

1 回答

371 浏览

sql - 更新查询架构RDD

我在 scala 中使用 schemaRDD 进行一些数据转换。当像这个例子一样使用更新查询时，UPDATE users SET email = 'abc@example.com' WHERE ID = 1我收到以下错误：

java.lang.RuntimeException: [1.1] failure: ''UNCACHE'' expected but identifier UPDATE found

sql scala apache-spark rdd

2014-12-05T13:35:24.590

0 投票

2 回答

1756 浏览

apache-spark - 使用 Apache-Spark，根据条件减少或折叠 RDD

我正在使用 Apache Spark 和 Scala。我有一个 String,Int 的 RDD

现在我通过 Key 减少了 RDD，但我想添加另一个功能来减少相似的单词。

我虽然使用 Levenshtein 距离、欧几里得距离或余弦距离。

那么，我怎样才能应用这些功能之一来减少我的 RDD？

例子：

承认相似度算法有效，我怎样才能获得减少的 RDD，如：

我试过类似的东西：

apache-spark rdd reduce fold

2014-12-05T19:34:52.323

0 投票

2 回答

4709 浏览

java - Spark-将 JavaRDD 保存到 Cassandra

此链接显示了一种以这种方式保存JavaRDD到Cassandra的方法：

但com.datastax.spark.connector.CassandraJavaUtil.*似乎已弃用。更新后的 API 应该是：

有人可以告诉我一些代码来存储JavaRDD使用Cassandra上面更新的 API 吗？

java apache-spark cassandra rdd spark-cassandra-connector

2014-12-05T19:40:10.513

0 投票

1 回答

490 浏览

arrays - 对向量/数组的 RDD 应用过滤器[Double]

假设我有一个 Array[Double] 的 RDD，有 n 列。我想在最后一列上应用过滤器（例如，值 > 某个常量）。

Scala/Apache Spark 中的语法是什么？
如果我有一个向量的 RDD，是否可以做同样的事情？
如果我可以选择其中一个（即 Array[Double] 的 RDD 和 Vectors 的 RDD），我应该选择哪一个才能获得更高效/更快的代码？

arrays scala vector apache-spark rdd

2014-12-08T02:39:18.520

0 投票

2 回答

746 浏览

scala - 如何在scala中对数据集进行转置？

我想在 scala 中对数据集进行转置？

我的 csv 文件是，

我需要结果，

scala csv rdd

2014-12-08T05:18:31.310

1 2 3 4 5 6 7 8 9 10

问题标签 [rdd]

Reference