“azure-data-flow”的相关标签问题

0 投票

1 回答

802 浏览

json - 如何在 Mapping Dataflow Datafactory 中将 json 数据输出为数组而不是对象集？

我试图在将数据流映射到 json 文件的转换后输出我的数据。但是这些记录最终成为一组单独的 json 对象，而不是用逗号括在数组中，如下所示：

文件内容：{k1:v1,k2:v2} {k1:v3,k2:v4}

预期：[{k1:v1,k2:v2}, {k1:v3,k2:v4}]

这在读取时会导致问题，因为它不是有效的 json。同样的问题可以在复制活动中修复，因为有一个设置输出为对象数组而不是对象集。

任何人都可以帮助请..

2020-01-20T13:58:16.453

0 投票

0 回答

157 浏览

azure - 映射数据流在根目录中创建输出文件，而不考虑给定的数据集路径

我正在尝试使用数据流将具有月份数据的文件拆分为单独的每日文件。我将文件名存储为派生列，并在接收器设置中将此列用作文件名，如下所示。列中的文件名类似于 Transactions_[date].csv

然后我在优化 -> 分区类型 - 键 -> 每个分区的唯一值 -> 键列 -> 文件名中基于此列对文件进行分区

问题：数据流运行完美。我可以在运行时在我想要的位置看到临时文件，但完成后，文件最终位于根位置（容器内）而不是我想要的文件夹内。

更新：数据集设置（现在硬编码，但将使用数据集参数）

azure azure-data-factory azure-data-factory-2 azure-databricks azure-data-flow

2020-01-21T14:05:46.263

0 投票

3 回答

3168 浏览

azure - Datafactory 映射数据流无法将日期时间格式化为 yyyy/MM/dd

我正在尝试在我的映射数据流中将日期从“2019-12-12”转换为“2019/12/12”。但我找不到可以转换为这种格式的数据流表达式。

我想要一个类似于 formatDateTime() 的函数，它可用于数据工厂表达式而不是数据流表达式。

试过 toDate() -> 不接受 yyyy/MM/dd

试过 toTimestamp() -> 不需要 yyyy/MM/dd

azure datetime azure-data-factory azure-data-factory-2 azure-data-flow

2020-01-22T09:54:30.290

0 投票

2 回答

1180 浏览

azure - 天蓝色数据工厂中的数据流显示验证错误而不进行任何更改

我们试图使用数据流将数据从一个 cosmos 集合复制和转换到另一个。我们正在使用查询从集合中选择数据，当我点击全部验证选项时，数据工厂突然显示验证错误“数据流表达式使用当前上下文中不存在的函数/参数/列”。由于我们没有进行任何修改，因此也没有发布任何内容。此外，当我们尝试调试时，它也会显示相同的错误。有人遇到过类似的问题吗？

azure azure-data-factory azure-data-flow

2020-01-22T10:20:30.933

0 投票

2 回答

1357 浏览

azure-data-factory - Azure 数据工厂数据流 CSV 架构漂移到 parquet 静态目标删除列。可能吗？

尝试编写一个处理两个类似版本化 CSV 文件的 Azure 数据工厂数据流。版本 1 文件有 48 列。版本 2 文件有 50 列 - 与版本 1 相同的 48 列，但在末尾附加了 2 列。我想创建一个包含所有 50 列的目标 parquet 文件，以通过 polybase 加载到我的 SQLDW 中。从历史上看，我们在同一个 blob 源中有超过 6000 个文件，没有简单的方法来识别 48 列和 50 列的文件。以下是我最接近解决方案的方法。

启用了允许架构漂移的源 CSV。未在 CSV 数据集上定义架构
MapDrifted 派生列 – 即 toString(byName('Manufacturer')) 所有 50 列
Sink – 数据集是 parquet，其模式由 parquet 模板文件定义，其中包含所有 50 列。Sink 分区由 sourcefilename 设置。每个传入的文件都会在输出中生成一个 parquet 文件。

此解决方案适用于一组两个测试文件。一个有 48 列，一个有 50 列。创建了两个包含 50 列的 parquet 文件。一个文件填充到第 48 列，另一个文件填充所有 50 列。如果我在测试中添加更多包含 48 列的源文件。有 50 列的文件丢失了最后两列数据，最后只有 48 列？我认为这将是 ADF 可以解决的常见问题。即文件版本随时间变化。有什么建议么？下面是我的 ADF 的脚本

azure-data-factory azure-data-flow

2020-01-27T13:48:46.203

0 投票

1 回答

1295 浏览