问题标签 [copy-activity]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
938 浏览

azure-data-factory - Azure 数据工厂复制活动 - 追加到 JSON 文件

我正在创建一个数据工厂管道,将数据从 REST API 端点复制到 Azure Blob 存储。API 有一次只能返回 1000 条记录的限制,因此我在管道中构建了一个循环,它将遍历所有页面。我想知道的是 - 是否可以使用复制活动附加到 Azure Blob 中的同一文件,而不是为每个页面创建一个单独的文件?

下面是 API 响应的样子。我需要从每个响应中获取的唯一值是“记录”列表,所以我在想如果可能的话,我可以摆脱其他东西,并在循环运行时继续附加到同一个文件 - 尽管我没有知道复制活动是否能够做到这一点。这可能吗?或者这样做的唯一方法是将所有响应作为单独的文件放在 Blob 存储中,然后在事后将它们组合起来?

谢谢你

0 投票
1 回答
253 浏览

sql - 在 Azure 数据工厂的复制活动中每月自动更改日期,以将数据从 SAP HANA 复制到 Azure SQLDB

我正在使用azure data factory (ADF)将数据从SAP HANA复制到Azure SQLDB。我在 ADF 中使用“复制活动”来执行此操作,使用 SQL 查询来查询 HANA 中的表并将其接收到 SQLDB。该查询包含reporting_date我需要每月手动更新以获取数据的内容。

我想删除手动更改日期的冗余过程,然后每个月运行它,因为我有 350 多个管道每个月更改日期,这个任务变得非常忙碌和耗时。有什么方法可以在一个地方更改日期,它可以作为源查询的输入,并且查询会自动更新日期?请根据我的要求找到随附的屏幕截图。

ADF 屏幕截图

待更新查询:

上述查询作为复制活动的输入,需要每月手动更新日期。请帮忙!

0 投票
2 回答
581 浏览

azure - ADF 管道在复制活动中添加顺序值

如果已在其他地方提出并回答此问题,我们深表歉意。如果是,请参考回复评论中的网址。所以情况是这样的,

我正在发出 API 请求,作为响应,我得到了 auth_token,我在复制活动中使用它作为授权来检索 JSON 格式的数据并将其接收到 Azure SQL 数据库。我能够将我在 JSON 中收到的所有元素映射到 Azure SQL 数据库的列。但是,仍然需要填充两列( UploadIdRowId )。

  • UploadId是一个 GUID,对于整批行都是相同的(我已经设法解决了这个问题)
  • RowId将是从 1 开始到该批次条目结束的序列,然后对于下一个批次(具有新的 GUID 值),它会重置回 1。

数据库看起来像这样,

Azure Pipeline 的 Copy Activity 中是否有办法实现此RowId行为......或者即使在 Azure SQL 数据库中也是可能的。

抱歉,描述很长,并提前感谢您的帮助!问候

0 投票
1 回答
490 浏览

azure-data-factory - 从 Azure 数据工厂复制活动输出中动态获取文件路径

有没有办法可以从 Azure 数据工厂复制活动输出中获取文件路径。我的管道中有另一个活动,我想使用输出文件路径。我还将文件路径作为值添加到参数中。

0 投票
1 回答
274 浏览

azure-data-factory - 如何防止通过 azure 数据工厂复制空文件?

我是 azure 数据工厂和从事复制活动的新手。我想防止为空文件运行复制活动。谁能帮我解决这个问题?

另外,如果在复制活动中遇到空文件会怎样?会不会有什么错误?

0 投票
0 回答
84 浏览

azure - 如何使用翻转窗口触发器将 ADF 复制管道参数化为回溯和回填

所以我是 ADF 的新手。我创建了一个复制管道,它使用文件名中的时间戳在我的接收器 ADLSgen2 中创建一个日期分区。

不幸的是,我无法附上图片。

顺序是这样的:

  1. GetMetadata 活动(提取的 childItems)

  2. Foreach 活动(设置[@activity('Get Metadata1').output.childItems])

  3. 在 foreach 中,我使用了 SetVariable 活动 (VARIABLES-@concat(substring(split(item().name,'_')[2],0,4),'/',substring(split(item().name,'_')[2],4,2),'/', substring(split(item().name,'_')[2],6,2))) 来拆分文件名并提取日期,然后将我的复制活动与该目录链接起来

文件格式为 H_ODP_20201125_092436_00.CSV

管道工作正常,但问题是我只想运行特定日期的文件并且需要帮助参数化它。

我希望能够使用翻滚窗口触发器回溯和回填任何特定日期提前谢谢你。

0 投票
1 回答
280 浏览

filtering - 在 Azure 数据工厂的复制活动中筛选 MongoDB 源数据集

我创建了一个使用 MongoDB JSON 文件作为源数据集的管道,并且需要将其放入 SQL 数据库中。

我的问题是 JSON 文件包含太多行,所以我试图只检索过去n天的行。

是否可以在复制活动中过滤源数据集,换句话说,不使用过滤活动?

在此处输入图像描述

0 投票
1 回答
285 浏览

azure - ADF Copy Activity FTP Source 奇怪的行为

我创建了一个 ADF 管道,将大约 18 个文件从 FTP 位置复制到 Azure Blob 容器。最初,我使用 Get Metadata Activity 从 FTP 位置获取所有文件。然后,我有 ForEach 活动来遍历所有文件。在 ForEach 活动中,我有复制数据活动,它从 FTP 位置复制到 Blob 位置。

在运行管道时,一些文件被复制了,但是其中一些文件失败了,说下面的错误消息 -

"ErrorCode=UserErrorFileNotFound,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=远程服务器返回错误:(550) 文件不可用(例如,找不到文件,无法访问)。,Source=Microsoft.DataTransfer。 ClientLibrary,''Type=System.Net.WebException,Message=远程服务器返回错误:(550) 文件不可用(例如,找不到文件,无法访问)。,Source=System,'"

我不确定这里出了什么问题,因为其他文件已成功复制,但是很少有。我不得不多次尝试,仍然不能保证所有文件都会被复制。

当我尝试查看与 FTP Linked 服务的连接是否正常时,它说它连接成功。FTP 链接服务已启用 SSL 并配置为从 Azure Key Vault 获取密码。

当我运行管道时,请参考以下输出 -

在此处输入图像描述

关于这里出了什么问题的任何想法?一次复制的文件数量是否有限制?

先感谢您。

0 投票
1 回答
331 浏览

azure-data-factory - 复制活动自动创建 nvarchar(max) 列

我有 Azure 数据工厂复制活动,它将 parquet 文件加载到 Azure Synapse。Sink 配置如下图:

在此处输入图像描述

数据加载完成后,我有一个这样的临时表结构:

在此处输入图像描述

然后我基于 stg one 创建临时表,它一直工作正常,直到今天新创建的表突然收到 nvarchar(max) 类型而不是 nvarchar(4000):

在此处输入图像描述

临时表创建现在失败并出现明显错误: 列“currency_abbreviation”的数据类型无法参与列存储索引。

为什么 AutoCreate 表定义已更改,如何在没有 nvarchar(max) 列的情况下将其恢复为“正常”行为?

0 投票
1 回答
97 浏览

azure-data-factory - 在使用 ADF 中的复制活动进行数据加载时,我们如何从 Excel 文件中排除不必要的行

我有一个半结构化的 excel 文件。表中有数据,但某些行中有分隔符需要忽略。数据的处理应该从列标题(Col1,col2 ....)开始,并且只处理具有实际数据的行。谁能建议使用 adf 中的复制活动来实现此目的的方法。

我的源是 xls 文件,目标是 ADLA(Parquet 文件)

任何帮助表示赞赏。提前致谢。 在此处输入图像描述