问题标签 [azure-data-flow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

292 问题

0 投票

0 回答

116 浏览

azure-data-factory - 如何在大型 Azure 数据架构（多个 ADF、数据湖、Spark/Hadoop 集群）中管理架构元数据？

人们如何在大型 Azure 数据架构中进行元数据管理？我对人们如何为读取模式数据架构管理和版本控制模式特别感兴趣。Azure 数据目录不提供架构管理。ADF 不提供用于在 ADF 之外使用的元数据存储，并且似乎没有托管用于在 ADF 内使用的外部元数据存储的解决方案（例如，从 Hive 元存储中读取数据集列表）。我知道您可以使用 HDInsight 中的外部元存储，但这似乎错过了大多数 ADF 功能。AWS Glue 数据目录似乎最接近我的设想（以及如何在多个 AWS 数据服务中使用它）。我希望微软正在做类似的事情。

选项似乎是：

开发自定义元数据管理解决方案并根据需要推送到 ADF 和 Hive 元存储
掌握 Hive 元数据中的元数据并提取到 ADF 数据集
将元数据掌握为 ADF 数据集并推送到 Hive 元存储

问题： 人们如何管理大型 Azure 数据架构（例如，多个 ADF、数据湖、Spark 集群）中的架构？

azure-data-factory azure-hdinsight azure-data-flow

2020-09-23T00:44:35.540

0 投票

2 回答

142 浏览

azure - 在新数据流中将现有数据集与 Azure 数据工厂一起使用

当我想创建新的数据流时，我在使用 Azure 数据工厂的现有数据集时遇到了问题。数据工厂中的数据集组合框下不加载现有数据集。此外，当我想创建一个新数据集时，大多数数据源（如 SQL Server）都被禁用。

有什么想法吗？

请看这个屏幕截图

我无法选择之前构建的数据集当我按下新数据集时，sql server 被禁用，我无法选择它。

此列表中的 SQL Server 已禁用且无法选择

azure azure-data-factory-2 azure-data-flow

2020-09-23T18:10:25.157

0 投票

1 回答

135 浏览

azure-pipelines - Azure 数据工厂数据流“设备上没有剩余空间”

我在 Azure 数据工厂中运行一个管道，其中包含一些源和转换的数据流，但管道运行了大约 40 小时，然后失败并出现错误：

有一种方法可以调试此错误的原因吗？或者“设备上没有剩余空间”是什么意思？

使用的数据位于数据湖中，然后尝试沉入 Azure Synapse DB。

谢谢

azure-pipelines azure-data-factory azure-data-flow

2020-09-26T19:34:09.560

0 投票

1 回答

143 浏览

azure - ADF 数据流未提供带参数的 cosmos 查询结果

免责声明：我对 Azure 开发非常陌生

在源选项中的 Azure 数据工厂数据流中，当我对日期字符串进行硬编码并在下面使用查询时，它会提供 cosmos DB 的预期结果。

当我传递了我在管道中映射的参数并将查询与参数一起使用时，我没有得到任何结果。

您能否建议我在这里做错了什么，因为我的参数值和硬编码值是相同的。

azure azure-cosmosdb azure-data-factory azure-data-flow

2020-09-29T11:16:32.850

0 投票

1 回答

1191 浏览

azure-data-factory - 将行设置为标头 Azure 数据工厂 [映射数据流]

目前，我有一个 Excel 文件，我正在使用映射数据流处理该文件以删除一些空值。

这是我的输入文件：

并在删除我拥有的空值之后：

我正在将我的数据下沉到 Cosmos DB 中，但我需要更改列的名称并将第一行设置为标题...

我需要在 Sink 之前的上一步中执行此操作（第一行作为标题），并且 y 无法使用映射选项手动设置列的名称，因为这些列的位置可能会改变

有什么想法吗？

谢谢

azure-data-factory azure-data-factory-2 azure-data-flow

2020-09-30T00:01:17.323

0 投票

1 回答

50 浏览

azure-data-factory - 执行 datafactory 管道导致未记录的 3208 错误

此问题已在GitHub中报告。我们有同样的问题，并在这个论坛上尝试我的运气以快速解决。关于此错误的技术细节知之甚少。这个问题出现在我们新创建的具有 vNet 的资源组中（没有 vNet 或 SelfHostedRuntime 的资源组可以正常工作）。

Datafactory 或 Databricks 的问题在哪里？我们有 vNet、Datafactory、SelfHostedRuntime、Databricks（带有托管子网）。

我们正在低于相同错误的变体......

{ "errorCode": "3208", "message": "发送请求时出错。", "failureType": "UserError", "target": "process-demo-source-data", "details": [] }

azure-data-factory databricks azure-databricks vnet azure-data-flow

2020-10-06T20:36:06.657

0 投票

1 回答

496 浏览

line-breaks - 天蓝色数据流的表达式生成器中是否有换行符？

我正在使用 Azure 数据流活动的派生列设置的表达式生成器。我正在尝试编写交流换行符。所以它看起来像：

价值 1 价值 2

编写此代码的语法是什么？

line-breaks azure-data-flow expressionbuilder

2020-10-07T00:44:52.057

0 投票

2 回答

238 浏览

azure - Azure 数据工厂中的条件接收器

我有一个映射数据流，它在我的文件中检查无效数据，并带有条件拆分。（第一列中的示例行<比第二列中的行。）

如果我没有任何无效数据，我想将文件复制到新文件夹中。如果我的文件中至少有一个错误，我想将文件复制到错误文件夹中。

问题是验证是在行级别上的，我不能使用查找。

谢谢您的帮助

azure azure-data-factory azure-data-flow

2020-10-08T14:53:06.330

0 投票

1 回答

630 浏览

json - 在数据工厂 v2 中将选定的 excel 列转换为 json 字符串

我有包含多列的 excel 表。我需要使用 Azure 数据工厂 V2 将 excel 表的选定列转换为 json 字符串并存储在 excel 的单独列中。

在使用数据流的数据工厂 v2 中，我们可以使用派生列转换创建和更新现有列。

我有以下excel文件：

使用 Azure 数据工厂数据流，我需要将文件转换为以下内容：

请让我知道这是否可以在派生列数据流转换中实现，或者我必须使用自定义活动来实现格式。

json azure-data-factory azure-data-factory-2 azure-data-flow

2020-10-12T13:54:19.627

0 投票

1 回答

649 浏览

aggregate-functions - Azure 数据工厂数据流 SELECT DISTINCT

我有一个带有几个连接的数据流，在进行连接 #5 时，行数从 10,000 变为 320,000（举例说明数量如何增加），但之后我有更多连接要做，因此数据流需要更长的时间才能完成。

我所做的是在连接之后添加一个聚合转换，对我稍后将使用的字段进行分组，以我在数据库查询中使用 SELECT DISTINCT 的方式使用它，但仍然需要很长时间才能完成。

如何让这个数据流运行得更快？

我应该在每个连接之间使用聚合（和 groupby 字段）以避免重复，还是在行开始增加的连接之后添加聚合（和 groupby 字段......）？

谢谢。

aggregate-functions azure-data-factory azure-data-flow

2020-10-12T15:45:04.870

1 2 3 4 5 6 7 8 9 10