问题标签 [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何在 Spark RDD(Java)中按索引获取元素
我知道 rdd.firstwfirst() 方法,它为我提供了 RDD 中的第一个元素。
还有一种方法 rdd.take(num) 它给了我第一个“num”元素。
但是是否有可能通过索引获取元素?
谢谢。
scala - 如何在由案例类实例组成的 Spark RDD 上正确使用 groupBy?
我正在尝试在其元素是简单案例类的实例的 RDD 上执行 groupBy,但我遇到了一个奇怪的错误,我不知道如何解决。以下代码在 Spark-shell(Spark 0.9.0、Scala 2.10.3、Java 1.7.0)中重现了该问题:
最后一条语句产生的错误是:
所以我尝试了:
这个错误现在有点可怕:
我试图通过添加额外的参数 numPartions = 10 来更具体地了解我想要应用的重载方法 groupBy 的版本(当然,我的真实数据集远大于 3 条记录)
我得到与以前完全相同的错误。
有任何想法吗?我怀疑这个问题可能与隐含的证据论点有关……不幸的是,这是我不太了解的 scala 领域之一。
注 1:此代码的模拟使用元组而不是案例类 EmployeeRec,没有任何问题。但是,我希望能够使用案例类而不是元组来获得更好、更易于维护的代码,这些代码不需要我按位置而不是按名称来记住或处理字段(实际上我每个员工有超过 3 个字段.)
注意 2:似乎观察到的这个问题(使用案例类 EmployeeRec 时)可能在 Spark 1.+ 中得到修复,因为在使用 spark-core_2.10 时,上述代码的任何版本都由 eclipse scala 插件正确编译-1.0.0-cdh5.1.0.jar。但是,我不确定如何或是否能够在我有权访问的集群中运行该版本的 Spark,我希望能更好地理解问题,以便为 Spark 0.9 提供解决方法。 0
apache-spark - 缓存和持久化有什么区别?
在持久性方面, spark和inRDD
之间有什么区别?cache()
persist()
scala - Spark Scala scala.util.control.Exception 在地图中捕获和丢弃 None
我正在 scala 中编写一个 Spark 应用程序,并且想要处理一个脏输入文件。
当 r(1) 不是数字时,将抛出 NumberFormatException。这发生在丑陋的输入数据中的少数行上。
我终于找到了一种丑陋的方式来完成我所需要的:
这给我留下了两个问题。
1)在地图中简单地删除格式错误的行的最佳方法是什么?
2)如何处理通过捕获创建的选项类型,而无需先显式过滤掉 None ,然后将 .get 函数映射并应用于非 None 选项值?
我尝试应用 .flatMap(identity) 步骤来摆脱 Nones,但得到了预期的:TraversableOnce[?] 异常。
scala - 如何将上一行的键复制到键值对RDD中下一行的键字段
样本数据集:
我使用以下代码创建了一个键值对 RDD:
控制台上的键值 RDD 输出:
但是,由于数据集的性质,很多行都有这个“”作为键,即空白(参见上面的 RDD 输出),所以,如果它是,我想要一个函数将前一行的演员复制到这一行空的。如何做到这一点。
scala - Spark:如何将 RDD[T]` 拆分为 Seq[RDD[T]] 并保留顺序
如何有效地将 a 拆分RDD[T]
为带有元素的Seq[RDD[T]]
/并保留原始顺序?Iterable[RDD[T]]
n
我希望能够写出这样的东西
这应该会导致类似
spark提供这样的功能吗?如果不是,那么实现这一目标的有效方法是什么?
看起来不是很快。。
python - spark中哪个函数用于通过key组合两个RDD
假设我有以下两个 RDD,具有以下密钥对值。
和
现在,我想通过键值加入它们,例如我想返回以下内容
在使用 Python 或 Scala 的 spark 中,我该如何做到这一点?一种方法是使用 join,但 join 会在元组内创建一个元组。但我希望每个键值对只有一个元组。
scala - 我应该如何将 RDD[String] 转换为 RDD[(String, String)]?
我RDD[String]
从一个文件中得到一个:
myData 的格式:
我应该如何将数据从文件转换为结构RDD[(String, String)]
?例如,
python - 如何在spark中将rdd数据一分为二?
我在 Spark RDD 中有一个数据,我想将它分成两部分,比例为 0.7。例如,如果 RDD 看起来像这样:
我想把它分成rdd1
:
和rdd2
:
比例为 0.7。并且每次都应该是随机rdd1
的。rdd2
我试过这样:
它有时会起作用,但是当我的数据包含时,dict
我遇到了一些问题。例如数据如下:
我明白了
类型错误:不可散列的类型:'dict'
lucene - 使用 RDD 进行单词归一化
也许这个问题有点奇怪......但我会试着问它。
每个使用 Lucene API 编写应用程序的人都看到过这样的情况:
是否可以使用 RDD 重写单词规范化?也许有人有这种转换的例子,或者可以指定关于它的网络资源?
谢谢你。