Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在 Spark 中,弹性分布式数据集 (RDD) 是低级 API,而数据帧是高级 API,所以我的问题是何时使用低级 API?
Spark 有两组基本的 API:低级“非结构化”API 和高级结构化 API。
RDD 既可以处理结构化数据,也可以处理非结构化数据,其中数据框将数据组织成行列格式,因此适用于结构化数据。如果需要,您可以将数据框转换为 rdd。
一般来说,人们使用数据框,因此使用高级 API,因为它提供了更多选项。但这完全取决于您的要求。
我建议您阅读“Learning Spark”或“Spark - The Defintive Guide”等书籍,以获得更多说明。