SparkCLR 与 spark-xml 一起使用。以下代码展示了如何使用 C# 将 XML 处理为 Spark DataFrame。您可以使用此代码示例开始为 Spark 构建 XML 处理 C# 应用程序。此示例实现了https://github.com/databricks/spark-xml#scala-api上提供的相同示例。请注意,提交作业时需要包含 spark-xml jar。
var sparkConf = new SparkConf();
var sparkContext = new SparkContext(sparkConf);
var sqlContext = new SqlContext(sparkContext);
var df = sqlContext.Read()
.Format("com.databricks.spark.xml")
.Option("rowTag", "book")
.Load(@"D:\temp\spark-xml\books.xml");
var selectedData = df.Select("author", "@id");
selectedData.Write()
.Format("com.databricks.spark.xml")
.Option("rootTag", "books")
.Option("rowTag", "book")
.Save(@"D:\temp\spark-xml\newbooks.xml");