“azure-data-factory-2”的相关标签问题

0 投票

1 回答

2444 浏览

azure - 与 GetMetadata 存在总是返回 true

使用 V2，我试图找出 Azure blob 存储中是否存在文件夹（我知道“文件夹”是一个伪名称，因为它只是文件 url 的一部分）。当我尝试这样做时，无论文件夹是否存在，它总是返回 true。

下面是一个应该返回 false 但返回 true 的示例。文件夹路径“test/2018/5/25”不存在，但 Get Metadata 返回“exists: true, itemName: 25”。存在其他文件夹路径，如“test/2018/5/24，但不是以25结尾的那个，因为没有25号的数据。

有任何想法吗？

管道

数据集

2018-05-25T08:12:17.357

0 投票

0 回答

336 浏览

azure - 使用 Azure 数据工厂 V2 执行具有依赖项的 PySpark 作业

我想使用 Data Factory V2 执行具有依赖项（egg 或 zip 文件）的 PySpark 作业。

当以 spark-submit 方法的形式直接在头节点集群 (HD Insight) 上运行命令时，它如下所示（并且有效）：

火花提交--py-files 0.3-py3.6.egg main.py 1

在数据工厂（V2）中，我尝试定义以下内容：

尝试指定依赖项的确切路径（“wasb://.../0.3-py3.6.egg”或 adfspark/pyFiles/0.3-py3.6.egg），如此线程中建议的：如何设置自定义具有数据工厂的 HDInsights 群集中的 Spark 参数

所有这一切都是在“adfspark”是容器并且依赖项位于“pyFiles”文件夹中的情况下，就像 Azure 文档中建议的那样： https ://docs.microsoft.com/en-us/azure/data-factory /tutorial-transform-data-spark-powershell

尽管分布式执行是这里的真正目标，但仅在头节点上运行作业就足够了

azure apache-spark pyspark azure-data-factory azure-data-factory-2

2018-05-27T13:49:10.397

0 投票

1 回答

114 浏览

mysql - Azure 管道复制数据活动，用于将数据从 Azure MSSQL 复制到 Azure MySQL

我知道 Azure Pipeline 的复制数据活动不支持 MySQL 作为接收器。但是有没有通过其他一些组件来解决这个问题？

mysql azure pipeline azure-data-factory-2

2018-05-29T17:30:35.870

0 投票

0 回答

556 浏览

azure-data-factory-2 - 使用 Azure 数据工厂 2，我无法复制具有大量 blob 的容器

我在使用 Azure 数据工厂 V2 时遇到问题，其中没有复制具有大量 blob 的容器。一条管道运行了将近 75 小时，最终因错误而失败。

额外细节

5 个管道，每个管道都有 1 个复制活动（3 个成功，2 个失败）。
- 将 auto 用于并行复制和 DMU
- 跳过不兼容的行
- 没有分期
源数据集使用 Azure 存储帐户的 SAS 密钥。
- 存储帐户配置为 RA-GRS，我正在尝试从辅助（读取访问）位置读取。
- 使用递归和二进制文件选项。
目标数据集使用 Azure 存储帐户的 SAS 密钥。
- 存储帐户与源数据集位于同一数据中心（存储帐户的 RA 辅助）。
- 使用保留层次结构选项
来源和目的地都是美国中南部

我尝试了 5 个不同的源容器，3 个成功，2 个失败。失败的两个之间的共同点似乎是容器中的 blob 数量。一个容器的根中有超过 3000 万个 Blob。我不知道另一个容器中的数字，但它超过 1 TB，由小文件（每个 15 KB）组成，组织成 2 级深的子文件夹。我试图尽我所能重现文件夹结构。

容器 1（成功）
- {Guid-文件夹名称}/Blob.jpg
- 65GB，复制了 63,555 个文件
容器 2（成功）
- 文件夹/guid 文件名
- 209GB，复制了 2,724,023 个文件
容器 3（成功）
- 文件夹/{文件夹}/blob.txt
- 过滤到 *.txt
- 606MB，复制了 687,559 个文件
容器 4（失败）
- 文件夹/{IntId-FolderName}/blob
- 过滤为 *.json
- 超过 62,500,000 个文件，过滤到 *.json 将是其中的 10%
容器 5（失败）
- 文件夹/guid 文件名
- 超过 3000 万个 Blob

使用容器 4，我尝试了带过滤器和不带过滤器的源，但都没有工作。然后，我将源更改为更具体的路径 (Folder/1234)，该路径具有约 100,000 个 blob，并且它在指定过滤器的情况下复制得很好。由于我已经使用过滤和未过滤的源以及不同的路径结构（容器 1-3）成功复制，因此问题似乎在于 blob 的数量。

azure-data-factory-2

2018-05-29T19:55:23.230

0 投票

2 回答

15125 浏览