问题标签 [azure-data-factory-2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 与 GetMetadata 存在总是返回 true
使用 V2,我试图找出 Azure blob 存储中是否存在文件夹(我知道“文件夹”是一个伪名称,因为它只是文件 url 的一部分)。当我尝试这样做时,无论文件夹是否存在,它总是返回 true。
下面是一个应该返回 false 但返回 true 的示例。文件夹路径“test/2018/5/25”不存在,但 Get Metadata 返回“exists: true, itemName: 25”。存在其他文件夹路径,如“test/2018/5/24,但不是以25结尾的那个,因为没有25号的数据。
有任何想法吗?
管道
数据集
azure - 使用 Azure 数据工厂 V2 执行具有依赖项的 PySpark 作业
我想使用 Data Factory V2 执行具有依赖项(egg 或 zip 文件)的 PySpark 作业。
当以 spark-submit 方法的形式直接在头节点集群 (HD Insight) 上运行命令时,它如下所示(并且有效):
火花提交--py-files 0.3-py3.6.egg main.py 1
在数据工厂(V2)中,我尝试定义以下内容:
- 尝试指定依赖项的确切路径(“wasb://.../0.3-py3.6.egg”或 adfspark/pyFiles/0.3-py3.6.egg),如此线程中建议的: 如何设置自定义具有数据工厂的 HDInsights 群集中的 Spark 参数
所有这一切都是在“adfspark”是容器并且依赖项位于“pyFiles”文件夹中的情况下,就像 Azure 文档中建议的那样: https ://docs.microsoft.com/en-us/azure/data-factory /tutorial-transform-data-spark-powershell
尽管分布式执行是这里的真正目标,但仅在头节点上运行作业就足够了
mysql - Azure 管道复制数据活动,用于将数据从 Azure MSSQL 复制到 Azure MySQL
我知道 Azure Pipeline 的复制数据活动不支持 MySQL 作为接收器。但是有没有通过其他一些组件来解决这个问题?
azure-data-factory-2 - 使用 Azure 数据工厂 2,我无法复制具有大量 blob 的容器
我在使用 Azure 数据工厂 V2 时遇到问题,其中没有复制具有大量 blob 的容器。一条管道运行了将近 75 小时,最终因错误而失败。
额外细节
- 5 个管道,每个管道都有 1 个复制活动(3 个成功,2 个失败)。
- 将 auto 用于并行复制和 DMU
- 跳过不兼容的行
- 没有分期
- 源数据集使用 Azure 存储帐户的 SAS 密钥。
- 存储帐户配置为 RA-GRS,我正在尝试从辅助(读取访问)位置读取。
- 使用递归和二进制文件选项。
- 目标数据集使用 Azure 存储帐户的 SAS 密钥。
- 存储帐户与源数据集位于同一数据中心(存储帐户的 RA 辅助)。
- 使用保留层次结构选项
- 来源和目的地都是美国中南部
我尝试了 5 个不同的源容器,3 个成功,2 个失败。失败的两个之间的共同点似乎是容器中的 blob 数量。一个容器的根中有超过 3000 万个 Blob。我不知道另一个容器中的数字,但它超过 1 TB,由小文件(每个 15 KB)组成,组织成 2 级深的子文件夹。我试图尽我所能重现文件夹结构。
- 容器 1(成功)
- {Guid-文件夹名称}/Blob.jpg
- 65GB,复制了 63,555 个文件
- 容器 2(成功)
- 文件夹/guid 文件名
- 209GB,复制了 2,724,023 个文件
- 容器 3(成功)
- 文件夹/{文件夹}/blob.txt
- 过滤到 *.txt
- 606MB,复制了 687,559 个文件
- 容器 4(失败)
- 文件夹/{IntId-FolderName}/blob
- 过滤为 *.json
- 超过 62,500,000 个文件,过滤到 *.json 将是其中的 10%
- 容器 5(失败)
- 文件夹/guid 文件名
- 超过 3000 万个 Blob
使用容器 4,我尝试了带过滤器和不带过滤器的源,但都没有工作。然后,我将源更改为更具体的路径 (Folder/1234),该路径具有约 100,000 个 blob,并且它在指定过滤器的情况下复制得很好。由于我已经使用过滤和未过滤的源以及不同的路径结构(容器 1-3)成功复制,因此问题似乎在于 blob 的数量。
sql-server - 如何使用复制活动中的预复制脚本根据源中的更改跟踪表删除接收器中的记录?
我正在尝试使用更改跟踪将数据从 SQL Server 增量复制到 Azure SQL 数据库。我按照教程进行操作,但在为大量表实施此操作时遇到了一些问题。
在复制活动的源部分中,我可以使用一个查询,该查询为我提供了自上次更改跟踪版本以来更新、插入或删除的所有记录的更改表。这张桌子看起来像
PersonID 是该表的主键。
问题是复制活动只能将数据附加到 Azure SQL 数据库,因此当更新记录时,由于主键重复,它会出错。我可以通过让复制活动使用将数据合并到 Azure SQL 数据库上的表中的存储过程来解决此问题,但问题是我有大量表。
我希望预复制脚本删除 Azure SQL 数据库上已删除和更新的记录,但我不知道如何执行此操作。我是否需要为要复制的每个表创建单独的存储过程和相应的表类型,或者预复制脚本是否可以根据更改跟踪表删除记录?
azure - 在 azure data factory V2 中查找活动不成功
在 azure data factory V2 中查找活动不成功我等了一个小时仍然处于 Inprogess 状态,我不得不取消管道运行
这是我的json文件内容
注意:它在数据预览中工作
azure-data-factory-2 - 数据工厂 V2 - 最大并发限制回填
我发现翻转窗口触发器的 maxConcurrency 限制了回填切片的数量。
例如 maxConcurrency = 50(上限),我只能回填 50 周。
我希望 maxConcurrency 限制正在进行的切片的数量,但我仍然希望安排其他回填周。
如果我从 V1 的日子里没记错的话,回填会在新部署后开始(我认为还有其他原因,我现在似乎找不到描述它的网站)......有没有办法可以引起/欺骗其他片要安排?
围绕powershell命令,我只看到重新定义触发器的方法,而不是重新安排任何明确的事情。
parameters - M 需要一个参数验证错误
我在 Azure 数据工厂 (v2) 中有一堆复制管道。
他们一直工作到今天。现在,每当我尝试发布更改时,都会收到以下验证错误:M 需要一个参数
当然,由于验证错误,我无法保存我的更改。
关于我可能会寻找什么的任何死亡?我不知道“M”在哪里或它是什么。
azure-data-factory-2 - Azure 数据工厂 V2 中的“值不能为空。\r\n参数名称:端点”
在 ADF V2 中执行 Azure ML Batch Execution Activity 时出现以下错误。
我在 ML Activity 中编写了以下 JSON 查询
我已使用以下链接创建链接服务和活动: https ://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-machine-learning
任何人都可以帮忙吗?任何帮助将不胜感激..
谢谢
迪帕克
azure-data-factory - 运行 Azure 数据工厂管道时出错。未找到链接服务参考
在创建 Azure 机器学习批处理执行活动以执行评分 ML 实验时,我面临以下问题。请帮忙:
如果需要任何其他相关信息,请告诉我。我是新手,所以请帮忙
创建了一个 AzureML 链接服务,如下所示:
/li>创建管道如下:
/li>收到以下错误:
/li>