有人可以分享如何将 a 转换dataframe
为RDD
吗?
问问题
95397 次
3 回答
70
简单地:
val rows: RDD[Row] = df.rdd
于 2015-09-11T20:04:42.107 回答
3
我只是在寻找我的答案并找到了这篇文章。
Jean 的回答绝对正确,加上“df.rdd”将返回一个 RDD[Rows]。一旦我得到 RDD,我需要应用 split() 。为此,我们需要将 RDD[Row} 转换为 RDD[String]
val opt=spark.sql("select tags from cvs").map(x=>x.toString()).rdd
于 2016-11-17T12:15:56.150 回答
3
如果df.map(row => ...)
要将行映射到不同的 RDD 元素,则用于将数据帧转换为 RDD。例如
df.map(row => (row(1), row(2)))
为您提供配对的 RDD,其中 df 的第一列是键,df 的第二列是值。
于 2016-10-28T18:54:20.820 回答