问题标签 [azure-data-flow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-data-factory - 多个数据流与所有转换合二为一
您好我是 Azure 数据工厂的新手,并不熟悉在后台运行的后端处理。我想知道与在一个数据流中进行所有转换相比,并行运行几个数据流是否会对性能产生影响。
我正在尝试使用不存在的转换来暂存一些数据。我必须为多张桌子做这件事。当我测试并行运行两个数据流时,集群同时针对两个数据流一起出现。但我不确定这是否是将表加载分配到多个数据流的最佳方法,还是将所有转换都放在一个数据流中
azure - 如何在映射数据流的联接转换中写入 <= 条件
所以看起来我只能==
在我想加入 2 个数据源或流时选择选项。但是我想<,>,<=,>=
在连接 2 个数据源时设置一些条件。但是有一种方法可以通过使用Cross Join
但交叉连接不是我的选择,我必须使用Outer Join
. 有什么选择或建议可以帮助我解决问题吗?
SQL query
这是我真正想要获得
的示例,也许它可以帮助您理解,否则您可以忽略它,只关注 ADF 部分。
Select a.col1,a.col2,a.col3,sum(a.col4),b.col0
from T1 a, T2 b
where a.col5 >=b.col1
and a.col5 <= b.col2
group by a.col1,a.col2,a.col3,b.col0
sql - 在数据流(Azure 数据工厂 v2)的单一联接转换中联接多个表
让我们以示例 SQL 为例:
在上述查询中创建数据流(Azure 数据工厂 v2)来处理内部联接时,我们需要添加 2 个不同的联接转换。有没有其他方法可以对这些多个内部连接使用单连接转换???
上述查询只是一个示例,通常单个查询中可以有 10 到 30 个连接。
PS:这个问题是严格寻求答案,包括Azure Data Flow,所以请在回答之前阅读它。
Azure数据流(不要与Azure数据工厂混淆)/数据流/映射数据流允许用户在不编写代码的情况下开发图形数据转换逻辑,它不支持除自己的表达语言以外的任何语言
azure - 我们如何在 datafactory 中创建一个通用的映射数据流,它将动态地从具有不同模式的不同表中提取数据?
我正在尝试创建一个适用于所有表的 azure datafactory 映射数据流。我将把表名、用于连接目的的主列以及要在 groupBy 和聚合函数中使用的其他列作为参数传递给 DF。 df的参数
我无法在 groupBy 中引用此参数 错误:DF-AGG-003 - Groupby 应引用至少一列 - MapDrifted1 aggregate( ) ~> Aggregate1,[486 619]
有没有人尝试过这种情况?如果您对此有所了解或是否可以在 u-sql 脚本中处理,请提供帮助。
azure-data-factory - 如何将数据从管道传递到数据流
我的管道中有一个变量,内容如下:
我可以将它作为参数传递给我的数据流。
如何将数据流中的数据集加入到这个数组中?
连接的另一端看起来像这样:
预期的结果将是上面的内部连接以及 json 数组:
我们如何从数据流中加入变量?
azure - Azure 数据流从一个数据库在 SQL 弹性池中创建多个数据库
我对“Azure”很陌生。是否可以通过 Azure 数据工厂(数据流)在 SQL 弹性池中创建多个数据库?
鉴于:
桌子
第 1 行 | 值 1
行 2 | 价值2
执行后,我需要在特定的弹性池中获取两个数据库。一个 DB 命名为:“Value1”,第二个 DB 命名为:“Value2”。
azure - Azure 映射数据流:无法使用 Blob 存储数据集作为源
我添加了一个 Azure Blobdataset
作为 Azure 映射数据流的源,但无法查看预览,因为它显示以下错误:
数据集使用“AzureStorage”链接服务类型,数据流不支持该类型。
下面给出的是数据集 JSON:
data_staging是Azure Storage类型的链接服务。
该文档指出 Azure Blob 数据集可以用作源。请告诉我我在这里做错了什么。
azure - Azure 数据工厂 - 数据流活动更改文件名
我正在使用 Azure 数据工厂运行数据流活动。源数据源 - Azure bolb 目标数据源 - Azure Data Lake Gen 2
例如。我在 Azure blob 中有一个名为“test_123.csv”的文件。当我创建一个数据流活动来过滤一些数据并复制到 Data Lake 时,它会将 Data Lake 中的文件名更改为“part-00.csv”。
我想保留我的原始文件名?
azure - 使用 ADF 管理 Azure BlobStorage 文件追加
我有 azure 数据工厂管道,它通过调用 Azure 数据流来存储具有某些操作的数据。这里 blob 存储中的文件名应该是 pipeline-run-id。
管道复制活动具有“复制行为”,我在数据流的接收器流中找不到相关选项?
现在我遇到了一种情况,我要在同一个管道执行中多次调用同一个 Azure 数据流。因此,我的文件在 blob 中被覆盖。但是如果存在,我想将新数据附加到同一个文件中。
前任。如果管道运行 id '9500d37b-70cc-4dfb-a351-3a0fa2475e32' 并且从该管道执行 2 次数据流调用。在这种情况下,9500d37b-70cc-4dfb-a351-3a0fa2475e32.csv 只有具有第二个天蓝色数据流处理的数据。