问题标签 [azure-data-factory]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3159 浏览

performance - 从存储到 SQL 的 Azure 数据工厂复制活动:在 70000 行处挂起

我有一个具有如下管道复制活动的数据工厂:

输入数据大小约为 90MB,大约 150 万行,分成大约 150 万行。Azure 存储中的 20 个 4.5MB 块 blob 文件。这是数据(CSV)的示例:

A81001,1,1,1,1,2,600,3.0,47236654,141.7096,0.70854986 A81001,1001,11,11,11,255,55,588,543.0,543.0,5904582,1382,1382,1382,138.8757,8757,8757,87,87,87,87,87,87,87,87,87,87,87,87,87,87,87,8799925555555555555555555555555559999999999转65.65895

接收器是 S2 类型的 Azure SQL Server,额定为 50 个 DTU。我创建了一个具有合理数据类型的简单表,没有键、索引或任何花哨的东西,只有列:

源、汇和数据工厂都在同一个区域(北欧)。

根据 Microsoft 的“复制活动性能和调整指南”,对于 Azure 存储源和 Azure SQL S2 接收器,我应该获得大约 0.4 MBps。根据我的计算,这意味着 90MB 应该在大约半小时内传输(对吗?)。

在此处输入图像描述

由于某种原因,它非常快速地复制了 70,000 行,然后似乎挂起。使用 SQL 管理工作室,我可以看到数据库表中的行数正好是 70,000,并且在7 小时内根本没有增加。然而,复制任务仍在运行,没有错误:

在此处输入图像描述

任何想法为什么这挂在 70,000 行?我看不到第 70,001 个数据行有任何异常会导致问题。我已经尝试过彻底破坏数据工厂并重新开始,但我总是得到相同的行为。我有一个较小的表(8000 行)的另一个复制活动,它在 1 分钟内完成。

0 投票
2 回答
1204 浏览

azure-storage - Error trying to move data from Azure table to DataLake store with DataFactory

I've been building a Datafactory pipeline to move data from my azure table storage to a datalake store, but the tasks fail with an exception that I can't find any information on. The error is

Copy activity encountered a user error: ErrorCode=UserErrorTabularCopyBehaviorNotSupported,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=CopyBehavior property is not supported if the source is tabular data source.,Source=Microsoft.DataTransfer.ClientLibrary,'.

I don't know where the problem lies, if in the datasets, the linked services or the pipeline, and can't seem to find any info at all on the error I'm seeing on the console.

0 投票
9 回答
54400 浏览

visual-studio - 订阅未注册为使用命名空间“Microsoft.DataFactory 错误

浏览本教程“使用 Visual Studio 使用复制活动创建管道”并在我点击发布时收到此错误。

网络上的任何地方都没有提到错误,并且通常在网络上很少有关于 azure 的帮助/知识。

0 投票
0 回答
1098 浏览

azure-data-factory - ADL 默认合并复制活动

我在默认复制活动中使用“MergeFile”。我的源是 azure blob 存储,我的目标是 ADL 存储。但是,我收到以下错误。

ErrorCode=UserErrorFileNotFound,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=找不到'Azure Data Lake Store'文件。,Source=Microsoft.DataTransfer.ClientLibrary,''Type=System.Net.WebException,Message=远程服务器返回错误:(404) Not Found.,Source=System,'。

如何为输出指定文件名以解决此错误?我正在关注此文档页面以获取默认复制活动。 斑点连接器

我还尝试在输出数据集中使用特定的文件名。

更新: 如果我将目标更改为 azure blob,那么我不会收到该错误,而是另一个与 xml 相关的错误,我认为这是用户错误。

复制活动遇到用户错误:ErrorCode=UserErrorSourceDataContainsMoreColumnsThanDefined,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=Error found when processing 'Csv/Tsv Format Text' source '01/1001464881_1001464795_2015-01-01_1.13.05.152__1000 .xml' 行号为 1:发现的列比预期的列数多:1.,Source=Microsoft.DataTransfer.Common,'。

我的目标是将目录和子目录中的 xml 文件合并到单个大文件中。

0 投票
3 回答
3767 浏览

azure - Azure 数据工厂中计划活动的工作原理

我正在尝试掌握数据工厂的概念以了解计划活动的工作原理,但并不太了解。

假设我的工作流程如下:

  1. 我有一个在客户端机器上运行的代理(构建为 Windows 服务),它计划每天凌晨 1 点从 SAP 源中提取数据,然后将其放在 Azure blob 存储上。代理只是尝试仅提取昨天的数据。示例:今天(4 月 9 日)凌晨 1 点运行的代理仅在 4 月 8 日提取整个数据。此代理与数据工厂无关。

  2. 假设代理获取每日数据(4 月 8 日)并将其放入 blob 存储大约需要 30 分钟,这可能或多或少取决于数据的大小。

  3. 我有一个 Factory Pipepine(从 2016-04-08T01:30:00Z永久激活),它使用 blob 存储作为输入数据集和 1 个计划活动将数据从 blob 存储复制到数据库。

输入数据集的可用性选项为每日频率:

计划活动安排为每日频率:

因此,根据工作流程,我的问题是:

  1. 凌晨 1 点 30 分之后,代理完成从 SAP 中提取的数据,并将其作为输入数据集放入博客存储中。数据工厂如何知道 4 月 8 日的数据切片已为数据工厂做好准备。

  2. 如果 1:30 后数据还没有准备好,此时 Activity 还在运行呢?

0 投票
1 回答
782 浏览

c# - 运行几个小时后,Azure 数据工厂中的自定义活动失败

我正在使用按需 HDInsight 群集在 Azure 数据工厂中运行自定义 .Net 活动。Activity 处理存储在 Azure Blob 中的 XML 文件,并将它们移动到 Azure Data Lake Store。执行 28 小时后失败,出现以下错误:

“活动中的错误:请求被中止:请求被取消..”

没有可用于此活动运行的日志文件,并且上述错误不足以解决问题。如何解决此问题?

0 投票
1 回答
925 浏览

validation - Azure Datafactory - 数据验证

我需要将数据从 Azure Blob 存储移动到 Documentdb。为此,我创建了一个具有复制活动的数据工厂,它可以完成工作。但是,我需要在插入之前检查数据库中是否存在记录,这不会发生在复制活动中(至少据我所知)。除了自定义活动外,没有遇到任何活动或验证方法。有人可以建议这是否可能,或者是否有其他方法可以实现。

0 投票
3 回答
2621 浏览

azure - Azure 数据工厂仅从 Blob 存储中检索新的 Blob 文件

我目前正在将 blob 文件从 Azure Blob 存储复制到 Azure SQL 数据库。它计划每 15 分钟运行一次,但每次运行时都会重复导入所有 blob 文件。我宁愿对其进行配置,使其仅在任何新文件到达 Blob 存储时才导入。需要注意的一件事是文件没有日期时间戳。所有文件都存在于单个 blob 容器中。新文件将添加到同一个 blob 容器中。你知道如何配置这个吗?

0 投票
1 回答
1106 浏览

azure-data-factory - 数据工厂切片启动

我有一个需要每天运行的管道......但数据仅在当天下午 2 点左右到达(前一天)......所以当午夜结束时,数据不可用,因此一切都失败了;)

我试过这个:

但它仍然在午夜开始,我假设因为我的调度程序如下:

我想我需要使用锚日期时间或偏移量..但我不确定哪个?

0 投票
2 回答
2688 浏览

azure - Azure 数据工厂本地文件跳过标题行

目前,我正在对 Azure 数据工厂设置进行原型设计,其中我的输入是“本地文件”,但是当复制活动运行时,文件中的标题行被复制到接收器 SQL 服务器表中。

执行复制活动时有什么方法可以跳过标题行?

任何帮助,将不胜感激。