16

我使用 Spark 1.6.1。

我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS。虽然我们可以使用

df.write().orc(<path>)

我们宁愿做类似的事情

df.write().options(Map("format" -> "orc", "path" -> "/some_path")

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。我们在哪里可以找到对可以传递给 DataFrameWriter 的选项的引用?我在这里的文档中什么也没找到

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/DataFrameWriter.html#options(java.util.Map)

4

1 回答 1

26

我们在哪里可以找到对可以传递给 DataFrameWriter 的选项的引用?

最明确和最权威的答案是来源

您可能会在文档中找到一些描述,但没有单个页面(可能会从源自动生成以保持最新状态)。

原因是这些选项故意与格式实现分开,以便为每个用例提供您希望提供的灵活性(正如您正式指出的那样):

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。


您的问题似乎类似于如何知道 Databricks 支持的文件格式?我说:

我在哪里可以获得每种文件格式支持的选项列表?

这是不可能的,因为没有可遵循的 API(如在 Spark MLlib 中)来定义选项。每种格式都是独立完成的……不幸的是,最好的办法是阅读文档或(更权威的)源代码。

于 2017-06-05T09:36:26.623 回答