apache-spark - 火花：行到元素

Question

Spark 新手。

我想对类型为 df 的 spark DataFrame 的“wordList”列进行一些转换org.apache.spark.sql.DataFrame = [id: string, wordList: array<string>]。

我使用数据砖。df 看起来像：

+--------------------+--------------------+
|                  id|            wordList|
+--------------------+--------------------+
|08b0a9b6-3b9a-47a...|                 [a]|
|23c2ef79-8dce-4ad...|[ag, adfg, asdfgg...|
|26a7682f-2ce6-4eb...|[ghe, gener, ghee...|
|2ab530b5-04bc-463...|[bap, pemm, pava,...|
+--------------------+--------------------+

更具体地说，我定义了一个函数 shrinkList(ol: List[String]): List[String]，它接受一个列表并返回一个较短的列表，并希望将其应用于 wordList 列。问题是，如何将行转换为列表？

df.select("wordList").map(t => shrinkList(t(1)))给出错误：type mismatch; found : Any required: List[String]

另外，我不确定这里的“t(1)”。我宁愿使用列名而不是索引，以防将来列的顺序发生变化。但我似乎无法让 t$"wordList" 或 t.wordList 或 t("wordList") 工作。因此，我可以使用什么选择器来选择“wordList”列，而不是使用 t(1)？

score 1 · Accepted Answer

尝试：

df.select("wordList").map(t => shrinkList(t.getSeq[String](0).toList))

或者

df.select("wordList").map(t => shrinkList(t.getAs[Seq[String]]("wordList").toList))

apache-spark - 火花：行到元素

1 回答 1

Related

Reference