问题标签 [azure-data-factory-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
163 浏览

c# - 在 ADF .NET SDK 中向数据流添加和元素

我想知道是否可以使用 Azure 数据工厂 .NET SDK 创建数据流?我能够创建管道,并将数据流添加为 ExecuteDataFlowActivity,但是我无法添加参数、源或转换。非常感谢任何文档或示例:

0 投票
1 回答
3256 浏览

azure - Azure 数据工厂 V2:无法在 If Condition 活动中包含 forEach 活动的解决方法

如果满足某些条件(在 If Condition 活动中),我希望运行一个 forEach 活动。但我收到以下错误:

在 Switch Activity 下不允许使用 ForEach 活动 ('')。

在此处输入图像描述

只有在 ADF 中满足条件时,是否有任何方法可以遍历项目?

0 投票
2 回答
578 浏览

azure - 在 Azure 数据工厂中创建 SnowFlake 链接服务时出现索引超出范围错误

我正在传递所需的凭据和参数,但出现错误

属性“索引”的值无效:“索引超出范围。必须是非负数且小于集合的大小。参数名称:索引'。指数超出范围。必须是非负数且小于集合的大小。参数名称:索引活动ID:36a4265d-3607-4472-8641-332f5656661d。

0 投票
1 回答
1577 浏览

azure - Azure 数据工厂按文件大小拆分文件

在我两周的 Azure 体验中。我想根据大小拆分文件。例如,有一个包含 200k 行的表,我想设置一个参数以将该表拆分为多个文件,每个文件的限制为 100Mb(如果有意义的话)。它将N根据表大小返回文件数。就像是:

my_file_1ofN.csv

我正在浏览文档、博客和视频,并且可以使用我个人帐户中的 python 脚本对 Azure Functions、Azure Batch 和 Databricks 进行一些 POC。问题是公司不允许我使用任何这些方法。

因此,我使用分区数拆分文件,但这些文件的大小因表和分区而异。

有没有办法做到这一点?我现在正在试验lookupsforeach正在进行的活动,但效果不佳。

欢迎任何想法或线索。谢谢!!

0 投票
1 回答
62 浏览

azure-data-factory - ADF - 如何从引用文件名部分的 Excel 工作表中复制数据

我要做的是将数据从blob中的excel doc复制到db。我只想使用 'CodeMapping' 访问文件,因为它的原始名称是这样的 'CodeMapping-acbcb08e-gca6-457a-8g07-273941021w5z' 我该怎么做?有人能帮我吗?

复制活动 - 这是我尝试过的。但这是错误的 在此处输入图像描述

数据集

在此处输入图像描述

0 投票
0 回答
702 浏览

azure-data-factory - 如果 ADF 数据流中的条件

我有一个数据流如下:

在此处输入图像描述

在此处输入图像描述

我想做的是:

  1. 如果 environment = prod,则将数据存储到 Sink

  2. 如果 environment != prod,进行过滤并将数据存储到 Sink。

使用条件拆分。在运行此数据流时,我没有看到任何数据被添加到接收器中。我错过了什么?

注意:$environment 是 Data Flow 的参数集:

在此处输入图像描述

0 投票
1 回答
222 浏览

azure - 是否可以使用 Azure 数据工厂将一百万个文件从 Rest API 端点并行下载到 Blob 中?

我对 Azure 相当陌生,我手头有一项任务,即使用任何 Azure 服务(或为此集成在一起的一组 azure 服务)从第三方 Rest API 端点并行下载一百万个文件,即一次返回一个文件,使用 Azure 数据工厂到 Blob 存储?

我研究了什么:

根据我的研究,我的任务简而言之有三个要求:

  • 以百万计并行运行 - 为此,我推断 Azure Batch 将是一个不错的选择,因为它允许在 VM 上并行运行大量任务(它将该概念用于图形渲染过程或机器学习任务)
  • 将来自 Rest API 的响应保存到 Blob 存储:我发现 Azure 数据工厂能够从 Source/Sink 样式处理此类 ETL 类型的操作,我可以将 REST API 设置为源,将目标设置为 blob。

我尝试过的:

以下是一些需要注意的事项:

  • 我将 REST API 和 Blob 添加为链接服务。
  • API 端点接受一个名为:fileName的查询字符串参数
  • 我正在使用查询字符串传递整个 URL
  • Rest API 受 Bearer Token 保护,我正在尝试使用其他标头传递它。

主要问题:

  • 我在发布管道时收到一条错误消息,该模型不合适,只是那一行,它没有提供任何信息

其他查询:

  • 可以从 sql 表中动态传递查询字符串值,以便每个文件名可以从存储过程/内联查询的单列数据行中选择一个单行/列项?
  • 是否可以以某种方式使用 Azure Batch 使该管道并行运行?我们如何整合这个过程?
  • 仅使用 Batch 是否可以在没有数据工厂的情况下实现百万并行?
0 投票
1 回答
156 浏览

azure - 存储过程活动 ADF V2

我正在为 ADF v2 管道使用存储过程活动。现在的问题是每当管道在存储过程活动中失败时,我都没有得到完整的错误详细信息。以下是该存储过程活动的 JSON 输出:

请告诉我如何获取 ADF v2 管道的存储过程活动的错误详细信息?

0 投票
2 回答
423 浏览

azure-data-factory - 如何在 Azure 数据工厂的 CI/CD 管道上设置参数?

我目前正在构建多个共享相同参数的管道。一个父管道在执行时将参数发送给其他管道。

当我设置文件:arm-template-parameters-definition.json 时,如何指定我只想更改父管道的参数?

他目前正在检测所有具有相同名称的参数,并创建了 250 多个参数。

谢谢

0 投票
1 回答
134 浏览

xml - 使用 Azure 数据工厂的 XML 文件

我已使用 Azure 数据工厂中提供的最新 xml 文件系统支持功能,使用复制活动将 2 GB xml 文件转换为 csv,但最终导致内存异常。但是,如果我使用较小的文件,例如:500 mb 的文件,则该文件会在 1 小时内得到处理,而没有任何并行性 a 或 DIU。即使我使用并行度、DIU 或块大小的所有排列组合,2 GB 文件也不会被转换?难道我做错了什么。如果有人可以提出解决方案,那将非常有帮助。

问候,桑迪普