问题标签 [rdd]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 问题

0 投票

3 回答

61421 浏览

java - 如何在 Spark RDD（Java）中按索引获取元素

我知道 rdd.firstwfirst() 方法，它为我提供了 RDD 中的第一个元素。

还有一种方法 rdd.take(num) 它给了我第一个“num”元素。

但是是否有可能通过索引获取元素？

谢谢。

java apache-spark rdd

2014-11-09T13:41:39.257

0 投票

0 回答

4323 浏览

scala - 如何在由案例类实例组成的 Spark RDD 上正确使用 groupBy？

我正在尝试在其元素是简单案例类的实例的 RDD 上执行 groupBy，但我遇到了一个奇怪的错误，我不知道如何解决。以下代码在 Spark-shell（Spark 0.9.0、Scala 2.10.3、Java 1.7.0）中重现了该问题：

最后一条语句产生的错误是：

所以我尝试了：

这个错误现在有点可怕：

我试图通过添加额外的参数 numPartions = 10 来更具体地了解我想要应用的重载方法 groupBy 的版本（当然，我的真实数据集远大于 3 条记录）

我得到与以前完全相同的错误。

有任何想法吗？我怀疑这个问题可能与隐含的证据论点有关……不幸的是，这是我不太了解的 scala 领域之一。

注 1：此代码的模拟使用元组而不是案例类 EmployeeRec，没有任何问题。但是，我希望能够使用案例类而不是元组来获得更好、更易于维护的代码，这些代码不需要我按位置而不是按名称来记住或处理字段（实际上我每个员工有超过 3 个字段.)

注意 2：似乎观察到的这个问题（使用案例类 EmployeeRec 时）可能在 Spark 1.+ 中得到修复，因为在使用 spark-core_2.10 时，上述代码的任何版本都由 eclipse scala 插件正确编译-1.0.0-cdh5.1.0.jar。但是，我不确定如何或是否能够在我有权访问的集群中运行该版本的 Spark，我希望能更好地理解问题，以便为 Spark 0.9 提供解决方法。 0

scala group-by apache-spark implicit rdd

2014-11-10T17:04:26.263

0 投票

6 回答

132937 浏览

apache-spark - 缓存和持久化有什么区别？

在持久性方面， spark和inRDD之间有什么区别？cache()persist()

apache-spark distributed-computing rdd

2014-11-11T17:14:16.317

0 投票

1 回答

1252 浏览

scala - Spark Scala scala.util.control.Exception 在地图中捕获和丢弃 None

我正在 scala 中编写一个 Spark 应用程序，并且想要处理一个脏输入文件。

当 r(1) 不是数字时，将抛出 NumberFormatException。这发生在丑陋的输入数据中的少数行上。

我终于找到了一种丑陋的方式来完成我所需要的：

这给我留下了两个问题。

1）在地图中简单地删除格式错误的行的最佳方法是什么？

2）如何处理通过捕获创建的选项类型，而无需先显式过滤掉 None ，然后将 .get 函数映射并应用于非 None 选项值？

我尝试应用 .flatMap(identity) 步骤来摆脱 Nones，但得到了预期的：TraversableOnce[?] 异常。

scala exception-handling apache-spark rdd

2014-11-11T19:19:06.290

0 投票

2 回答

200 浏览

scala - 如何将上一行的键复制到键值对RDD中下一行的键字段

样本数据集：

我使用以下代码创建了一个键值对 RDD：

控制台上的键值 RDD 输出：

但是，由于数据集的性质，很多行都有这个“”作为键，即空白（参见上面的 RDD 输出），所以，如果它是，我想要一个函数将前一行的演员复制到这一行空的。如何做到这一点。

scala apache-spark rdd

2014-11-12T09:44:44.693

0 投票

1 回答

1213 浏览

scala - Spark：如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序

如何有效地将 a 拆分RDD[T]为带有元素的Seq[RDD[T]]/并保留原始顺序？Iterable[RDD[T]]n

我希望能够写出这样的东西

这应该会导致类似

spark提供这样的功能吗？如果不是，那么实现这一目标的有效方法是什么？

看起来不是很快。。

scala apache-spark spark-streaming rdd

2014-11-12T21:08:48.400

0 投票

2 回答

30192 浏览

python - spark中哪个函数用于通过key组合两个RDD

假设我有以下两个 RDD，具有以下密钥对值。

和

现在，我想通过键值加入它们，例如我想返回以下内容

在使用 Python 或 Scala 的 spark 中，我该如何做到这一点？一种方法是使用 join，但 join 会在元组内创建一个元组。但我希望每个键值对只有一个元组。

python scala apache-spark rdd

2014-11-13T11:37:23.670

0 投票

1 回答

346 浏览

scala - 我应该如何将 RDD[String] 转换为 RDD[(String, String)]？

我RDD[String]从一个文件中得到一个：

myData 的格式：

我应该如何将数据从文件转换为结构RDD[(String, String)]？例如，

scala apache-spark rdd

2014-11-14T08:50:59.810

0 投票

1 回答

5054 浏览

python - 如何在spark中将rdd数据一分为二？

我在 Spark RDD 中有一个数据，我想将它分成两部分，比例为 0.7。例如，如果 RDD 看起来像这样：

我想把它分成rdd1：

和rdd2：

比例为 0.7。并且每次都应该是随机rdd1的。rdd2我试过这样：

它有时会起作用，但是当我的数据包含时，dict我遇到了一些问题。例如数据如下：

我明白了

类型错误：不可散列的类型：'dict'

python apache-spark pyspark rdd

2014-11-15T07:46:53.420

0 投票

1 回答

987 浏览

lucene - 使用 RDD 进行单词归一化

也许这个问题有点奇怪......但我会试着问它。

每个使用 Lucene API 编写应用程序的人都看到过这样的情况：

是否可以使用 RDD 重写单词规范化？也许有人有这种转换的例子，或者可以指定关于它的网络资源？

谢谢你。

lucene apache-spark rdd

2014-11-15T08:55:48.557

1 2 3 4 5 6 7 8 9 10