问题标签 [azure-data-factory-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - Azure 数据工厂 V2 探索管道依赖项
我正在使用很多管道,这涉及到管道之间的大量依赖关系。
由于以下几个原因,这并不理想:
- 很难知道您是否更改了一个管道中的某些内容,其他管道可能会受到影响
- 能够记录整体数据工厂结构
理想情况下,我应该能够“选择”一个随机管道,并且能够知道它在执行前后都有哪些管道依赖项。
我正在考虑使用数据工厂 SDK 来尝试构建我所有管道的依赖结构。但是我想我会把它扔在那里,看看是否有人发现了任何解决方案,或者在进入兔子洞之前有任何想法。
我很感激任何建议。
干杯,布伦丹
sql-server - 数据工厂 Salesforce 到 SQL Server 字节 [] 字段的不同值
我创建了一个复制活动,其中源数据集是一个 salesforce 系统,使用一个查询,我在测试中只获得一个 (1) 记录并将其插入到 SQL Server 表中。但是发生的情况是复制完成时源体值与接收器体不同。源数据类型是 Byte[],对于接收器,我尝试了不同的数据类型,例如 NVARCHAR、VARCHAR、BINARY、VARBINARY,但实际值仍然不同。源是 BASE64 值,但在接收器上它似乎不同,我不知道转换发生在哪里。
来自 Salesforce的源正文的第一部分值:
SQL Server接收器主体的第一部分值:
azure - 在 Azure 数据工厂中根据文件名创建文件夹
我需要将几个文件从 ADLS Gen1 位置复制到另一个 ADLS Gen1 位置,但必须根据文件名创建文件夹。
我在源 ADLS 中有几个文件如下:
场景 1 我必须将这些文件复制到目标 ADLS 中,如下所示,只有 csv 文件并从文件名创建文件夹(如果文件夹存在,则复制到该文件夹):
场景 2 我必须将这些文件复制到目标 ADLS 中,如下所示,只有 csv 和 json 文件,并从文件名创建文件夹(如果文件夹存在,则复制到该文件夹):
有没有办法在数据工厂中实现这一点?感谢任何线索!
json - 动态引用数据工厂副本中的 Json 值
我有 ADF CopyRestToADLS 活动,可以将 json 复杂对象正确保存到 Data Lake 存储。但我还需要将其中一个 json 值(myextravalue)传递给存储过程。我尝试在存储过程参数中引用它,@{activity('CopyRESTtoADLS').output.myextravalue
但出现错误
操作 ExectuteStored 过程 1 中的“输入”引用的操作 CopyRestToADLS 未在模板中定义
我想尝试动态引用这个值,因为 CopyRestToADLS 源 REST 数据集动态调用不同的 REST 端点,因此 JSON 对象的结构每次都不同。但是 myextravalue 始终存在于每个 JSON 调用中。
如何引用 myextravalue 并将其用作参数?
富750
azure - 在 ADF 管道中映射数据流与 SQL 存储过程
我有一个要求,我需要在 ADF 管道中的映射数据流与 SQL 存储过程之间进行选择,以实现一些业务场景。现在数据量不算太大,但后期可能会变大。业务逻辑有时很复杂,我必须加入多个表、编写子查询、使用 windows 函数、嵌套 case 语句等。
我的所有业务需求都可以通过 SP 轻松实现,但考虑到它在下面运行 spark 并且可以根据需要扩展,因此有点倾向于映射数据流。在 ADF 管道中使用时,ADF 映射数据流是否优于 SQL 存储过程?我对映射数据流的一些担忧如下。
- 使用数据流实现复杂逻辑所花费的时间远远超过存储过程
- 考虑到启动 spark 集群所需的时间,映射数据流的执行时间要长得多。
现在,如果我决定在管道中使用 SQL SP,有什么缺点?如果数据量在某个时间点快速增长,是否会出现可扩展性问题?
powerbi - 如何调用 Power BI 活动日志 API
我想每天使用数据工厂调用 Power BI 活动日志 API,以将活动事件下载到 Blob 存储中。我想我会使用以 HTTP 数据集作为源的复制数据活动来调用 REST API。如何在 HTTP 数据集的链接服务中进行身份验证?我是否需要使用 Power BI 管理员权限注册 Azure AD 应用程序并在链接服务中以某种方式引用它?
azure - Azure 数据工厂链接源代码控制的 GitHub 存储库?
有没有办法创建 ARM 模板资源,以便可以将 GitHub 存储库添加到 Azure 数据工厂以进行源代码控制?
我可以很容易地在 UI 中做到这一点。这只是工厂启动后可以手动完成的事情吗?
我不是在谈论将 GitHub 链接为 ADF 中的服务,这是另一回事。我希望为任何已发布的管道/数据集建立源代码控制连接,以将它们与其各自的参数文件一起放入 GitHub。主要是希望为初始 ADF 部署自动执行此操作,以便在 UI 中完成的点击次数更少。
azure - 在 Azure 数据工厂中加载 Excel 工作表
在 Azure 数据工厂中加载 excel 工作表名称时出现超时错误。文件大小为 51 MB。我们对 Excel 有任何大小限制吗?MSDN 上没有关于此的文章
azure-data-factory - 有没有办法在 Azure 数据工厂中以编程方式生成 adf_publish 内容?
我是 Azure 数据工厂的新手,阅读了我发现要生成工件以部署到其他 DF 环境的文档,您需要在 dev DF 中发布,这会生成一个带有要部署的 json 的 adf_publish 分支。我的问题是我是否可以以编程方式运行此发布,从而从任何分支生成 json?