问题标签 [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
61421 浏览

java - 如何在 Spark RDD(Java)中按索引获取元素

我知道 rdd.firstwfirst() 方法,它为我提供了 RDD 中的第一个元素。

还有一种方法 rdd.take(num) 它给了我第一个“num”元素。

但是是否有可能通过索引获取元素?

谢谢。

0 投票
0 回答
4323 浏览

scala - 如何在由案例类实例组成的 Spark RDD 上正确使用 groupBy?

我正在尝试在其元素是简单案例类的实例的 RDD 上执行 groupBy,但我遇到了一个奇怪的错误,我不知道如何解决。以下代码在 Spark-shell(Spark 0.9.0、Scala 2.10.3、Java 1.7.0)中重现了该问题:

最后一条语句产生的错误是:

所以我尝试了:

这个错误现在有点可怕:

我试图通过添加额外的参数 numPartions = 10 来更具体地了解我想要应用的重载方法 groupBy 的版本(当然,我的真实数据集远大于 3 条记录)

我得到与以前完全相同的错误。

有任何想法吗?我怀疑这个问题可能与隐含的证据论点有关……不幸的是,这是我不太了解的 scala 领域之一。

注 1:此代码的模拟使用元组而不是案例类 EmployeeRec,没有任何问题。但是,我希望能够使用案例类而不是元组来获得更好、更易于维护的代码,这些代码不需要我按位置而不是按名称来记住或处理字段(实际上我每个员工有超过 3 个字段.)

注意 2:似乎观察到的这个问题(使用案例类 EmployeeRec 时)可能在 Spark 1.+ 中得到修复,因为在使用 spark-core_2.10 时,上述代码的任何版本都由 eclipse scala 插件正确编译-1.0.0-cdh5.1.0.jar。但是,我不确定如何或是否能够在我有权访问的集群中运行该版本的 Spark,我希望能更好地理解问题,以便为 Spark 0.9 提供解决方法。 0

0 投票
6 回答
132937 浏览

apache-spark - 缓存和持久化有什么区别?

在持久性方面, spark和inRDD之间有什么区别?cache()persist()

0 投票
1 回答
1252 浏览

scala - Spark Scala scala.util.control.Exception 在地图中捕获和丢弃 None

我正在 scala 中编写一个 Spark 应用程序,并且想要处理一个脏输入文件。

当 r(1) 不是数字时,将抛出 NumberFormatException。这发生在丑陋的输入数据中的少数行上。

我终于找到了一种丑陋的方式来完成我所需要的:

这给我留下了两个问题。

1)在地图中简单地删除格式错误的行的最佳方法是什么?

2)如何处理通过捕获创建的选项类型,而无需先显式过滤掉 None ,然后将 .get 函数映射并应用于非 None 选项值?

我尝试应用 .flatMap(identity) 步骤来摆脱 Nones,但得到了预期的:TraversableOnce[?] 异常。

0 投票
2 回答
200 浏览

scala - 如何将上一行的键复制到键值对RDD中下一行的键字段

样本数据集:

我使用以下代码创建了一个键值对 RDD:

控制台上的键值 RDD 输出:

但是,由于数据集的性质,很多行都有这个“”作为键,即空白(参见上面的 RDD 输出),所以,如果它是,我想要一个函数将前一行的演员复制到这一行空的。如何做到这一点。

0 投票
1 回答
1213 浏览

scala - Spark:如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序

如何有效地将 a 拆分RDD[T]为带有元素的Seq[RDD[T]]/并保留原始顺序?Iterable[RDD[T]]n

我希望能够写出这样的东西

这应该会导致类似

spark提供这样的功能吗?如果不是,那么实现这一目标的有效方法是什么?

看起来不是很快。。

0 投票
2 回答
30192 浏览

python - spark中哪个函数用于通过key组合两个RDD

假设我有以下两个 RDD,具有以下密钥对值。

现在,我想通过键值加入它们,例如我想返回以下内容

在使用 Python 或 Scala 的 spark 中,我该如何做到这一点?一种方法是使用 join,但 join 会在元组内创建一个元组。但我希望每个键值对只有一个元组。

0 投票
1 回答
346 浏览

scala - 我应该如何将 RDD[String] 转换为 RDD[(String, String)]?

RDD[String]从一个文件中得到一个:

myData 的格式:

我应该如何将数据从文件转换为结构RDD[(String, String)]?例如,

0 投票
1 回答
5054 浏览

python - 如何在spark中将rdd数据一分为二?

我在 Spark RDD 中有一个数据,我想将它分成两部分,比例为 0.7。例如,如果 RDD 看起来像这样:

我想把它分成rdd1

rdd2

比例为 0.7。并且每次都应该是随机rdd1的。rdd2我试过这样:

它有时会起作用,但是当我的数据包含时,dict我遇到了一些问题。例如数据如下:

我明白了

类型错误:不可散列的类型:'dict'

0 投票
1 回答
987 浏览

lucene - 使用 RDD 进行单词归一化

也许这个问题有点奇怪......但我会试着问它。

每个使用 Lucene API 编写应用程序的人都看到过这样的情况:

是否可以使用 RDD 重写单词规范化?也许有人有这种转换的例子,或者可以指定关于它的网络资源?

谢谢你。