问题标签 [azure-data-factory-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 在 ADF .NET SDK 中向数据流添加和元素
我想知道是否可以使用 Azure 数据工厂 .NET SDK 创建数据流?我能够创建管道,并将数据流添加为 ExecuteDataFlowActivity,但是我无法添加参数、源或转换。非常感谢任何文档或示例:
azure - 在 Azure 数据工厂中创建 SnowFlake 链接服务时出现索引超出范围错误
我正在传递所需的凭据和参数,但出现错误
属性“索引”的值无效:“索引超出范围。必须是非负数且小于集合的大小。参数名称:索引'。指数超出范围。必须是非负数且小于集合的大小。参数名称:索引活动ID:36a4265d-3607-4472-8641-332f5656661d。
azure - Azure 数据工厂按文件大小拆分文件
在我两周的 Azure 体验中。我想根据大小拆分文件。例如,有一个包含 200k 行的表,我想设置一个参数以将该表拆分为多个文件,每个文件的限制为 100Mb(如果有意义的话)。它将N
根据表大小返回文件数。就像是:
my_file_1ofN.csv
我正在浏览文档、博客和视频,并且可以使用我个人帐户中的 python 脚本对 Azure Functions、Azure Batch 和 Databricks 进行一些 POC。问题是公司不允许我使用任何这些方法。
因此,我使用分区数拆分文件,但这些文件的大小因表和分区而异。
有没有办法做到这一点?我现在正在试验lookups
和foreach
正在进行的活动,但效果不佳。
欢迎任何想法或线索。谢谢!!
azure - 是否可以使用 Azure 数据工厂将一百万个文件从 Rest API 端点并行下载到 Blob 中?
我对 Azure 相当陌生,我手头有一项任务,即使用任何 Azure 服务(或为此集成在一起的一组 azure 服务)从第三方 Rest API 端点并行下载一百万个文件,即一次返回一个文件,使用 Azure 数据工厂到 Blob 存储?
我研究了什么:
根据我的研究,我的任务简而言之有三个要求:
- 以百万计并行运行 - 为此,我推断 Azure Batch 将是一个不错的选择,因为它允许在 VM 上并行运行大量任务(它将该概念用于图形渲染过程或机器学习任务)
- 将来自 Rest API 的响应保存到 Blob 存储:我发现 Azure 数据工厂能够从 Source/Sink 样式处理此类 ETL 类型的操作,我可以将 REST API 设置为源,将目标设置为 blob。
我尝试过的:
以下是一些需要注意的事项:
- 我将 REST API 和 Blob 添加为链接服务。
- API 端点接受一个名为:fileName的查询字符串参数
- 我正在使用查询字符串传递整个 URL
- Rest API 受 Bearer Token 保护,我正在尝试使用其他标头传递它。
主要问题:
- 我在发布管道时收到一条错误消息,该模型不合适,只是那一行,它没有提供任何信息
其他查询:
- 可以从 sql 表中动态传递查询字符串值,以便每个文件名可以从存储过程/内联查询的单列数据行中选择一个单行/列项?
- 是否可以以某种方式使用 Azure Batch 使该管道并行运行?我们如何整合这个过程?
- 仅使用 Batch 是否可以在没有数据工厂的情况下实现百万并行?
azure - 存储过程活动 ADF V2
我正在为 ADF v2 管道使用存储过程活动。现在的问题是每当管道在存储过程活动中失败时,我都没有得到完整的错误详细信息。以下是该存储过程活动的 JSON 输出:
请告诉我如何获取 ADF v2 管道的存储过程活动的错误详细信息?
azure-data-factory - 如何在 Azure 数据工厂的 CI/CD 管道上设置参数?
我目前正在构建多个共享相同参数的管道。一个父管道在执行时将参数发送给其他管道。
当我设置文件:arm-template-parameters-definition.json 时,如何指定我只想更改父管道的参数?
他目前正在检测所有具有相同名称的参数,并创建了 250 多个参数。
谢谢
xml - 使用 Azure 数据工厂的 XML 文件
我已使用 Azure 数据工厂中提供的最新 xml 文件系统支持功能,使用复制活动将 2 GB xml 文件转换为 csv,但最终导致内存异常。但是,如果我使用较小的文件,例如:500 mb 的文件,则该文件会在 1 小时内得到处理,而没有任何并行性 a 或 DIU。即使我使用并行度、DIU 或块大小的所有排列组合,2 GB 文件也不会被转换?难道我做错了什么。如果有人可以提出解决方案,那将非常有帮助。
问候,桑迪普