用例
我们有一个本地 Hadoop 设置,并且我们使用 Power BI 作为 BI 可视化工具。我们目前在 Powerbi 上获取数据的工作如下。
- 将数据从本地复制到 Azure Blob(一旦数据在 Hive 中准备好,我们的本地计划就会执行此操作)
- 然后将 Azure Blob 中的数据复制到 Azure-DataWarehouse/Azure-SQL
- Azure AAS 上的多维数据集刷新,AAS 从 Azure DataWarehouse/SQL 中提取数据
为了执行第 2 步和第 3 步,我们目前正在 Azure 上运行一个 Web 服务器,并且端点被配置为采用一些参数,例如表名、Azure 文件位置、多维数据集信息等。
示例 http 请求:
在这里,Web 服务器从变量(from、fromloc、to、totable)中提取值,然后它们执行复制活动。我们这样做是因为我们有很多表,并且都可以重用相同的功能。
现在我们的用例堆积如山(重试、控制流、电子邮件警报、监控),我们正在寻找一种云替代方案来为我们完成调度工作,我们仍然希望访问像上面这样的 HTTP 端点。
到目前为止,我们已经检查过的替代方案之一是 Azure 数据工厂,其中创建管道以实现上述步骤并使用 http 端点触发 ADF。
问题
- 我们如何从 http post 调用中获取参数并将其作为自定义变量 [1],这是管道中所必需的,以便我们仍然可以为每个步骤编写一个函数{2, 3},并且该函数可以获取这些参数,我们不想为每个表创建一个 ADF。
- 我们如何检测 ADF 步骤中的故障并在故障期间发送电子邮件警报?
- 除了 ADF 之外,还有哪些其他选项可以在 Azure 中执行此操作?
[1] https://docs.microsoft.com/en-us/azure/data-factory/control-flow-system-variables