问题标签 [azure-data-factory-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 管道运行 - 按工厂查询不适用于 Webhook
我正在使用 azure datafactory WebHook 来获取管道运行的详细信息 - 使用以下链接按工厂查询。POST https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.DataFactory/factories/{factoryName}/queryPipelineRuns?api-version=2018-06-01 我填写了所有所需的变量,例如 subcriptionId 等,我使用我的凭据在邮递员上工作。但我需要使用 MSI 和 datafactory(当前使用 webhook)运行它。
然后使用 webhook 从 datafactory 发出 post 请求。通过选择回调和不回调来尝试这两个选项。
当我运行它需要很长时间(10 分钟)并且状态显示它的超时。
azure-data-factory - 在 Azure 数据工厂中动态更改链接服务/数据集
我们需要能够对配置表执行查找,这将使我们知道服务器和数据库,并允许我们更改它以进行后续查找。我可以对其进行设置,以便在提示我输入服务器和数据库的位置动态设置它——但该过程对我们不起作用,因为该过程将在无人值守的情况下运行。
出于讨论的目的,假设我们有一个表 Config,它看起来像:
ID 服务器数据库 1 A POC1 2 B POC2 3 V POC3
我在 ADF 中使用了一个 Lookup 函数,其中包含查询:select Server, Database from Config where id = 1
然后,我将从该查询中获取结果,以在链接服务和数据集中设置服务器和数据库,以便我可以发出另一个查找,例如
从 bank_table 中选择 bank_name、bank_etl、bank_rules(在我刚刚在配置表中查找的服务器/数据库中) - 并继续 ADF 流程的其余部分
azure-data-factory - ADF: Dynamic Content in parameters
I am trying to pass text with dynamic content as a parameter into a pipeline (execute pipeline activity).
As a super simple example, I want the input to my pipeline to be a timestamp, utcnow(). Here are my results:
I've noticed:
If I put @utcnow() in a set variable activity and set the execute pipeline parameter to that variable it works.
If I put @utcnow() (or @{utcnow()}) in the main parameter and set the execute pipeline parameter to that parameter it does not work. I get that string "utcnow()" as the result.
Is there anything that I am missing here? I definitely feel like I've done this successfully before.
azure-data-factory-2 - 数据工厂数据流源中的动态文件名
我正在使用一个管道,该管道将表数据从本地 SQL 动态加载到 datalake csv 文件,为我已经设置为使用 Foreach 加载到 AzureSQL 中的 versionControl 表中的每个表下沉一个 .csv 文件。
因此,加载数据后,我想根据加载的每个 .csv 文件的 MAX(lastUpdate) 字段,用 lastUpdate 日期更新 versionControl 表。为了做到这一点,我知道我需要在复制活动之后添加一个数据流,所以我可以使用聚合转换,但不知道如何在参数中动态地将文件名传递给数据流的源。
谢谢!
python - 从数据工厂管道读取/写入错误消息
打算在这里问这个。
我正在尝试将一条错误消息从 Azure 数据工厂管道写入 SQL Server 中的表。它需要从 Databricks Python 作业中捕获错误消息。我找不到任何官方文档和我从这个来源找到的方法:
@{activity('Proc source').error.message}
..不向表中写入任何内容。只是一个没有解释的空字符串。
为什么数据工厂不仅有一个可以查看错误详细信息的区域,而不仅仅是说“失败”是我无法理解的。或者,如果是这样,它就会被隐藏起来。
有没有人有任何想法?
azure - Azure 数据工厂指标中的 FactorySizeInGbUnits 和 MaxAllowedFactorySizeInGbUnits
最近首次配置数据工厂,想了解正在收集的指标。我无法理解的两个指标是:
- FactorySizeInGbUnits - 这是数据工厂这一秒正在传输的千兆字节数据,还是迄今为止全部传输的数据?
- MaxAllowedFactorySizeInGbUnits - 这是我们可以设置的值吗?例如,一秒钟最多可以传输 100 GB 的数据?
我确实看过微软文档,但描述不是很清楚(如下所示)
我已经在我的实验室中配置了数据工厂,创建了管道,并执行了复制活动,这就是日志的外观:
对于有经验的数据工厂人员来说,这些可能是微不足道的指标,但对于像我这样的新手来说真的很困惑。请提供帮助,因为我找不到任何可以通过示例全面解释这两者的文档。
感谢你的帮助。
谢谢!!
azure - ADF DataFlows 列中的最后一个条目
抱歉,如果以前有人问过这个问题,因为我一直在搜索,但仍然没有找到任何有用的东西。如果是,请指出我正确的方向。
好的,问题是,我有一个包含EquipmentId和OperatingHours列的表。数据是这样的,
我想根据EquipmentId获取最后一个条目,以便获得值3585,我尝试使用Group By EquipmentId使用Aggregate并在Aggregations下使用类似这样的东西,
但我仍然在输出中得到3577而不是最后一个条目。
我的问题是,我怎样才能只使用 DataFlows 获得最后一个条目值,还有什么我可以使用而不是 Aggregate 来解决这个问题。
抱歉,如果我做错了什么,这是我使用 DataFlows 的第一天,所以只是尝试遵循在线提供的不同教程。
谢谢您,并期待收到您的来信。
azure - 如何将数据(文件夹)从本地专用网络上的服务器迁移到 Azure 数据湖?
我有一个位于本地安全网络上的服务器。我想定期将数据从该服务器迁移到 Azure 数据湖 2.0。
我尝试使用数据工厂,但不成功。任何建议将不胜感激。
azure - Azure Datafactory Copy Activity 中有哪些处理坏文件的方法
使用默认数据工厂复制活动将文件从 json blob(使用修改后的时间戳的源)加载到 sqldb 表(目标)时。对于容错设置,如果该行不兼容,则会跳过它,但是如果存在不是有效 json 格式的坏文件,则活动会出错并重试,而不是跳过坏文件。
有哪些方法可以在 ADF 复制活动中识别/跳过不兼容或损坏的文件?
提前致谢