问题标签 [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4641 浏览

scala - 使用 org.apache.hadoop.conf.Configuration 设置 Spark 记录分隔符时操作 RDD 失败

我想用 Spark 处理一个大文本文件“mydata.txt”(实际文件大小约为 30GB)。它的记录分隔符是“\ |” 后跟“\n”。因为加载文件的默认记录分隔符(通过“sc.textFile”)是“\n”,所以我将org.apache.hadoop.conf.Configuration的“textinputformat.record.delimiter”属性设置为“\|\n”指定记录分隔符:

接下来我在spark-shell中执行了如下代码:</p>

到目前为止,一切都很好。然而,

为什么我不能操作 RDD “数据”,而使用时一切都很好sc.textFile("mydata.txt")?以及如何解决?

0 投票
2 回答
911 浏览

amazon-s3 - 将 RDD 保存到文件会导致部件的 _temporary 路径

我在 Spark 中有要保存到 S3 的数据。推荐的保存方法是使用saveAsTextFileSparkContext上的方法,成功了。我希望数据将保存为“部分”。

我的问题是,当我去 S3 查看我的数据时,它已保存在一个文件夹名称_temporary中,带有一个子文件夹0,然后每个部分或任务都保存在自己的文件夹中。

例如,

导致文件喜欢

等等。我期待并看到过类似的东西

这是一个配置设置,还是我需要“提交”保存来解析临时文件?

0 投票
1 回答
6874 浏览

scala - Spark 广播报错:超过 spark.akka.frameSize 考虑使用广播

我有一个名为“edges”的大数据

当我在独立模式下工作时,我能够收集、计数和保存这个文件。现在,在集群上,我收到了这个错误

与 .saveAsTextFile("edges") 相同

这是来自火花壳。我尝试使用选项
--driver-java-options "-Dspark.akka.frameSize=15"

但是当我这样做时,它只是无限期地挂起。任何帮助,将不胜感激。

** 编辑 **

我的独立模式是 Spark 1.1.0,我的集群是 Spark 1.0.1。

此外,当我对 RDD 进行计数、收集或保存时会发生挂起,但定义它或对其进行过滤器工作得很好。

0 投票
0 回答
222 浏览

join - 修改RDD的key

我的 RDD 具有以下结构-

我用一些偏移值运行两个过滤器操作 -

过滤器 Op1:

偏移量 = 0,时间范围从 320 到 324

过滤所有值从 (320-0) 到 (324-0) 的键

过滤RDD1:

过滤器 Op2:

偏移量 = 6,时间范围从 320 到 324

所有值从 (320-6):314 到 (324-6):318 的键都被过滤

过滤RDD2:

行动

我想将FilteredRDD1 中的 Val1 与 FilteredRDD2 中的 Val2相乘。

我可以想到一个选项,其中 -

  1. 使用偏移量修改FilteredRDD2的key,使两个FilteredRDD的key相同

  2. 对未修改的 FilteredRDD 和修改后的 FilteredRDD 进行连接

  3. 对连接的 RDD 执行 map 操作,并将 Val1 与 Val2 相乘

任何其他更好的选择,以便更少的洗牌和更少的中间操作。

蒂亚!

0 投票
4 回答
5788 浏览

scala - 在 groupBy 之后取 top N 并将它们视为 RDD

我想N在 groupByKey of 之后获取顶级项目并将(在下面)RDD的类型转换为值所在的位置topNPerGroupRDD[(String, Int)]List[Int]flatten

data是_

N每组的前几项计算如下:

结果是

如果我实现了,topNPerGroup.collect.foreach(println)将产生(预期的结果!

0 投票
1 回答
371 浏览

sql - 更新查询架构RDD

我在 scala 中使用 schemaRDD 进行一些数据转换。当像这个例子一样使用更新查询时,UPDATE users SET email = 'abc@example.com' WHERE ID = 1我收到以下错误:

java.lang.RuntimeException: [1.1] failure: ''UNCACHE'' expected but identifier UPDATE found

0 投票
2 回答
1756 浏览

apache-spark - 使用 Apache-Spark,根据条件减少或折叠 RDD

我正在使用 Apache Spark 和 Scala。我有一个 String,Int 的 RDD

现在我通过 Key 减少了 RDD,但我想添加另一个功能来减少相似的单词。

我虽然使用 Levenshtein 距离、欧几里得距离或余弦距离。

那么,我怎样才能应用这些功能之一来减少我的 RDD?

例子:

承认相似度算法有效,我怎样才能获得减少的 RDD,如:

我试过类似的东西:

0 投票
2 回答
4709 浏览

java - Spark-将 JavaRDD 保存到 Cassandra

链接显示了一种以这种方式保存JavaRDDCassandra的方法:

com.datastax.spark.connector.CassandraJavaUtil.*似乎已弃用。更新后的 API 应该是:

有人可以告诉我一些代码来存储JavaRDD使用Cassandra上面更新的 API 吗?

0 投票
1 回答
490 浏览

arrays - 对向量/数组的 RDD 应用过滤器[Double]

假设我有一个 Array[Double] 的 RDD,有 n 列。我想在最后一列上应用过滤器(例如,值 > 某个常量)。

  • Scala/Apache Spark 中的语法是什么?
  • 如果我有一个向量的 RDD,是否可以做同样的事情?
  • 如果我可以选择其中一个(即 Array[Double] 的 RDD 和 Vectors 的 RDD),我应该选择哪一个才能获得更高效/更快的代码?
0 投票
2 回答
746 浏览

scala - 如何在scala中对数据集进行转置?

我想在 scala 中对数据集进行转置?

我的 csv 文件是,

我需要结果,