我正在摄取大型 XML 文件并根据 XML 元素生成单个 JSON,我在 azure databricks 中使用 SPARK-XML。将 json 文件创建为的代码
commercialInfo
.write
.mode(SaveMode.Overwrite)
.json("/mnt/processed/" + "commercialInfo")
我能够提取 XML 元素节点并写入 Azure 存储容器。在容器中创建了一个文件夹,在该文件夹中我们的名称是 guid 而不是文件名。
任何人都可以建议我们是否可以控制在容器中创建的文件名,即 part-0000 变成有意义的名称,以便可以使用一些 Azure Blob 触发器读取它。