问题标签 [azure-data-flow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
526 浏览

azure - 用于分隔 Azure 数据工厂中的唯一记录的动态数据流

我需要动态读取 Parquet 文件并提取唯一记录。每个文件可以有 1 个或多个键列。

  1. 假设文件将有 1 个关键列,我设计了以下带有ID参数的数据流。 基本数据流

  2. 在聚合转换中,我按IDColumn 分组按参数化 ID 列分组 还允许所有其他列通过 注意:请注意 Column 被读取为而不是 AddressID允许剩余的列流过 ID

  3. 在选择的下一步中,我尝试将此 ID 重命名为 AddressID(使用参数值)。 将 ID 列重命名为原始键列名称 输出显示如下 不工作


我尝试将名称中的值作为硬编码值(地址 ID)提供,它可以工作。


有人可以帮助我如何使用 AddressId (参数值哪个键列名称)动态重命名此 ID?

此外,当有 1 个键列时,上述情况是可能的。是否可以使用 Azure 数据工厂来处理超过 1 个键列并动态处理的场景?

根据这一点,我们将使用 adf 或使用 ADB。

数据流代码:

数据流脚本

0 投票
1 回答
1816 浏览

csv - Azure 数据工厂数据流静默清空日期列

我正在尝试使用 Azure 数据工厂将 CSV 插入 Azure SQL 表。在我检查结果之前,一切似乎都很好。其中一列是可为空的日期。CSV 包含这样的值1/2/2020 12:00:00 AM。数据流静默插入 aNULL而不是抛出错误,因为它不喜欢输入。那么如何让我的数据流正确地将字符串转换为日期时间,然后在将来出现此类问题时出错?我真的不想要无声的失败和糟糕的数据。

0 投票
1 回答
1393 浏览

azure-data-factory - ADF 数据流 - 用下划线替换列名中的空格

要删除带下划线的空格,我在 Select 转换中使用 replace($$,' ','_') 表达式

它适用于“Period Key”列并将其设为“Period_Key”,但对于另一列“Week in Month Description”则将其设为“Week_in Month Description”。所以它只替换第一次出现

有人可以试试这个吗?或者我们如何为此编写正则表达式?

在此处输入图像描述

0 投票
2 回答
943 浏览

azure-data-factory - ADF / Dataflow - 将多个 CSV 转换为 Parquet

在 ADLS Gen2 中,TextFiles 文件夹有 3 个 CSV 文件。每个文件中的列名不同。

我们需要将所有 3 个 CSV 文件转换为 3 个 parquet 文件并将其放在 ParquetFiles 文件夹中

我尝试使用 Copy Activity 但它失败了,因为列名中有空格并且镶木地板文件不允许它

要删除空格,我使用了数据流:Source -> Select(在 col 名称中用下划线替换空格)和 sink。这适用于单个文件。当我尝试对所有 3 个文件执行此操作时,它会尝试合并 3 个文件并生成包含不正确数据的单个文件。

如何解决这个问题,主要是去掉所有文件中列名的空格。这里还有什么其他选择?

0 投票
0 回答
247 浏览

duplicates - 插入 SQL DB 时 ADF 重复删除不起作用

我当前的数据流有问题,我尝试删除 SQL DB 中已经存在的条目。基于以下线程,我正在使用完全外连接和 Alter Row 步骤来消除重复条目:ADF 复制数据活动 - 在插入 SQL 数据库之前检查重复记录

唯一的区别是,属性_id 是数据类型varchar。

在此处输入图像描述

我遵循了所有必要的步骤:

在此处输入图像描述

这就是我的 AlterRow 步骤的偏好:

在此处输入图像描述

此外,我面临一个奇怪的问题,即我必须定期设置 FixNames@{_id} 的映射,因为 Azure 将其检测为错误。在映射部分再次设置它,错误就消失了。

一个替代方案可能是一个存储过程,但我不明白,为什么仍然插入我当前版本的重复项。

0 投票
1 回答
138 浏览

azure - 天蓝色数据工厂管道执行中的 403/307 错误

我们需要在 azure 中实现转换,同时将文件从 azure blob 存储复制到 azure data Lake gen2。在当前的实现中,我们正在尝试使用数据工厂中的数据流来实现它。然后我们将数据流块嵌入到管道中以供执行。在执行期间它会间歇性地但大多数时候会失败并出现以下错误。虽然监控调试数据流被认为是完整的,但文件没有被复制。还附上了数据工厂调试窗口的屏幕截图。请进一步建议我以解决此问题。

错误信息:

调试记录:

数据流的调试视图

0 投票
1 回答
1282 浏览

azure - ADF 映射数据流 byNames 表达式异常

Azure 数据工厂 (ADF) 映射数据流 byNames 表达式在派生列块中引发异常。实际上我需要访问单个派生列中的多个列值。

在此处输入图像描述

https://docs.microsoft.com/en-us/azure/data-factory/data-flow-expression-functions#bynames

0 投票
1 回答
878 浏览

azure-data-factory-2 - 对 FOR JSON AUTO 的 Azure 数据工厂数据流源查询支持

我正在尝试使用以下查询作为我的数据流的源,但我不断收到错误。数据流不支持功能吗?

我收到以下错误:

ADF V2,数据流,源

0 投票
1 回答
114 浏览

azure - 当存在带有转换的数据流活动时,Azure 数据工厂转换管道的执行时间超过 5 分钟

我已经创建了一个带有数据流活动的管道,它连接了我的输入文件中的两个字段。我的输入文件包含 5 行数据和 4 个字段。我正在使用 .net SDK 通过 Visual Studio 创建这些东西。当我创建这个作业并运行它时,它需要超过 5 分钟才能执行。我觉得它在内部启用了数据流调试器,这就是为什么它要花这么多时间。只想知道我的答案是否正确。如果不是,请告诉我为什么即使是 5 条记录也需要这么多时间?谢谢

0 投票
2 回答
2756 浏览

azure - Azure 数据工厂 - 如何使用 ForEach 循环遍历 CSV 文件中的记录

我想要达到的目标:

  • 我有一个包含以下列的 CSV (FlatnedListDocument.csv)

文档密钥、文档名称

示例值如下(此 CSV 文件中大约有 240,000 行):

12212,银河系搭便车徒步旅行者指南 12233,MoneyBall

  • 我必须为 CSV 文件中的每一行创建一个 JSON 文件,供另一个实用程序使用(每行一个文件)。
  • 我不知道如何将 CSV 表中的值推送到 ForEach 活动,以使其在 CSV 文件中迭代循环。