我们有一个要拆分为 3 的文件,并且我们需要在将其导入 Hana Vora 之前对其执行一些数据清理 - 否则所有内容都必须输入为字符串,这并不理想。
我们可以很好地在 spark 中导入和准备 DataFrame,但是当我尝试写入 HDFS 文件系统,或者更好的是,将其保存为“com.sap.spark.vora”数据源中的表时,我得到了错误。
任何人都可以建议将火花准备的数据集导入 Hana Vora 的可靠方法吗?谢谢!
我们有一个要拆分为 3 的文件,并且我们需要在将其导入 Hana Vora 之前对其执行一些数据清理 - 否则所有内容都必须输入为字符串,这并不理想。
我们可以很好地在 spark 中导入和准备 DataFrame,但是当我尝试写入 HDFS 文件系统,或者更好的是,将其保存为“com.sap.spark.vora”数据源中的表时,我得到了错误。
任何人都可以建议将火花准备的数据集导入 Hana Vora 的可靠方法吗?谢谢!
Vora 目前仅正式支持将数据附加到现有表(使用 APPEND 语句)。有关详细信息,请参阅SAP HANA Vora 开发人员指南-> 章节“3.5 将数据附加到现有表”
这意味着您必须创建一个中间文件。Vora 支持读取 CSV、ORC、Parquet 文件。数据帧可以直接从 Spark 保存在 ORC 和 Parquet 文件中(请参阅https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm)。要从 Spark 写入 CSV 文件,请参阅https://github.com/databricks/spark-csv