问题标签 [azure-data-flow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 用于分隔 Azure 数据工厂中的唯一记录的动态数据流
csv - Azure 数据工厂数据流静默清空日期列
我正在尝试使用 Azure 数据工厂将 CSV 插入 Azure SQL 表。在我检查结果之前,一切似乎都很好。其中一列是可为空的日期。CSV 包含这样的值1/2/2020 12:00:00 AM
。数据流静默插入 aNULL
而不是抛出错误,因为它不喜欢输入。那么如何让我的数据流正确地将字符串转换为日期时间,然后在将来出现此类问题时出错?我真的不想要无声的失败和糟糕的数据。
azure-data-factory - ADF / Dataflow - 将多个 CSV 转换为 Parquet
在 ADLS Gen2 中,TextFiles 文件夹有 3 个 CSV 文件。每个文件中的列名不同。
我们需要将所有 3 个 CSV 文件转换为 3 个 parquet 文件并将其放在 ParquetFiles 文件夹中
我尝试使用 Copy Activity 但它失败了,因为列名中有空格并且镶木地板文件不允许它
要删除空格,我使用了数据流:Source -> Select(在 col 名称中用下划线替换空格)和 sink。这适用于单个文件。当我尝试对所有 3 个文件执行此操作时,它会尝试合并 3 个文件并生成包含不正确数据的单个文件。
如何解决这个问题,主要是去掉所有文件中列名的空格。这里还有什么其他选择?
duplicates - 插入 SQL DB 时 ADF 重复删除不起作用
我当前的数据流有问题,我尝试删除 SQL DB 中已经存在的条目。基于以下线程,我正在使用完全外连接和 Alter Row 步骤来消除重复条目:ADF 复制数据活动 - 在插入 SQL 数据库之前检查重复记录
唯一的区别是,属性_id 是数据类型varchar。
我遵循了所有必要的步骤:
这就是我的 AlterRow 步骤的偏好:
此外,我面临一个奇怪的问题,即我必须定期设置 FixNames@{_id} 的映射,因为 Azure 将其检测为错误。在映射部分再次设置它,错误就消失了。
一个替代方案可能是一个存储过程,但我不明白,为什么仍然插入我当前版本的重复项。
azure - 天蓝色数据工厂管道执行中的 403/307 错误
我们需要在 azure 中实现转换,同时将文件从 azure blob 存储复制到 azure data Lake gen2。在当前的实现中,我们正在尝试使用数据工厂中的数据流来实现它。然后我们将数据流块嵌入到管道中以供执行。在执行期间它会间歇性地但大多数时候会失败并出现以下错误。虽然监控调试数据流被认为是完整的,但文件没有被复制。还附上了数据工厂调试窗口的屏幕截图。请进一步建议我以解决此问题。
错误信息:
调试记录:
azure - ADF 映射数据流 byNames 表达式异常
Azure 数据工厂 (ADF) 映射数据流 byNames 表达式在派生列块中引发异常。实际上我需要访问单个派生列中的多个列值。
https://docs.microsoft.com/en-us/azure/data-factory/data-flow-expression-functions#bynames
azure-data-factory-2 - 对 FOR JSON AUTO 的 Azure 数据工厂数据流源查询支持
我正在尝试使用以下查询作为我的数据流的源,但我不断收到错误。数据流不支持功能吗?
我收到以下错误:
ADF V2,数据流,源
azure - 当存在带有转换的数据流活动时,Azure 数据工厂转换管道的执行时间超过 5 分钟
我已经创建了一个带有数据流活动的管道,它连接了我的输入文件中的两个字段。我的输入文件包含 5 行数据和 4 个字段。我正在使用 .net SDK 通过 Visual Studio 创建这些东西。当我创建这个作业并运行它时,它需要超过 5 分钟才能执行。我觉得它在内部启用了数据流调试器,这就是为什么它要花这么多时间。只想知道我的答案是否正确。如果不是,请告诉我为什么即使是 5 条记录也需要这么多时间?谢谢
azure - Azure 数据工厂 - 如何使用 ForEach 循环遍历 CSV 文件中的记录
我想要达到的目标:
- 我有一个包含以下列的 CSV (FlatnedListDocument.csv)
文档密钥、文档名称
示例值如下(此 CSV 文件中大约有 240,000 行):
12212,银河系搭便车徒步旅行者指南 12233,MoneyBall
- 我必须为 CSV 文件中的每一行创建一个 JSON 文件,供另一个实用程序使用(每行一个文件)。
- 我不知道如何将 CSV 表中的值推送到 ForEach 活动,以使其在 CSV 文件中迭代循环。