-3

在 Spark 中,弹性分布式数据集 (RDD) 是低级 API,而数据帧是高级 API,所以我的问题是何时使用低级 API?

4

1 回答 1

-1

Spark 有两组基本的 API:低级“非结构化”API 和高级结构化 API。

RDD 既可以处理结构化数据,也可以处理非结构化数据,其中数据框将数据组织成行列格式,因此适用于结构化数据。如果需要,您可以将数据框转换为 rdd。

一般来说,人们使用数据框,因此使用高级 API,因为它提供了更多选项。但这完全取决于您的要求。

我建议您阅读“Learning Spark”或“Spark - The Defintive Guide”等书籍,以获得更多说明。

于 2019-02-06T07:09:01.987 回答