0

我们有以下要求将数据摄取到 Excel 文件中。

  • 从存储在 azure data Lake Storage gen2 中的 parquet 文件中查询数据
  • 将数据提取到 Excel 文件中
  • 将 Excel 文件存储在 SharePoint Online 中

实现这一点的最佳方法是什么?实施服务器端 CSOM 或其他 Azure 工具会更好吗?

非常感谢您的帮助。

4

1 回答 1

1

我可能会这样处理(组件很少,但自定义代码最少)

流动

  1. 使用逻辑应用将 parquet 文件复制到 Azure 数据湖(或 blob)存储并触发数据工厂管道
  2. Data Factory Pipeline 执行 Databricks Python 或 Scala notebook(两者都可以转换数据保存到 Excel)作为输出
  3. 使用 Logic App 将 Excel 传输回 SharePoint

因为

  • 逻辑应用非常适合 SharePoint 操作任务编排。
  • 数据工厂很好地协调了数据块笔记本的执行。
  • Databricks可以轻松读取 Parquets,并且可以轻松地将数据保存为 Excel 文件,因此它似乎是完美的选择。

虽然在最佳情况下您需要使用 3 个组件,但实际上只需不到 10 行代码即可完成您需要的操作。休息只是“点击”。

您可能会跳过数据工厂并通过带有逻辑应用程序的 REST api 调用 Databricks,但是当有开箱即用的组件来执行此操作时,为什么还要麻烦。

于 2020-09-24T20:05:54.543 回答