问题标签 [mwaa]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
59 浏览

amazon-web-services - 无法创建新的工作 MWAA 环境

在过去的两天里,我们无法创建新的工作 MWAA 环境。我们从 Terraform 开始 - 应用后,环境在控制台中显示为“可用”,但是当我单击“打开 UI”链接时,UI 永远不会出现。然后我们手动创建了几个环境,但结果相同。对我们来说,MWAA 即服务实际上已经停止了。

这是我们点击“Open Airflow UI”时看到的内容:

此页面不工作

zxxcvbnm-6666-4516-935b-bb9701f525e5-vpce.c20.us-west-2.airflow.amazonaws.com 没有发送任何数据。

ERR_EMPTY_RESPONSE

任何见解/提示表示赞赏!

0 投票
0 回答
82 浏览

amazon-web-services - EMR 上的 Spark 作业提交错误:java.net.URISyntaxException:索引 3 处的预期方案特定部分:s3

我通过 AWS 的 Managed Airflow 服务 (MWAA) 向 EMR 提交 Spark 作业。这些作业在 MWAA 1.10.12 版中运行良好。最近,AWS 发布了更新版本的 MWAA,即 2.0.2。我用这个版本创建了一个新环境,并尝试将相同的作业提交给 EMR。但它失败并出现以下错误:

spark-submit命令如下所示:

作业提交在 10 秒内失败。因此,未创建 YARN 应用程序 ID。

我试图解决的错误:

  1. 我将亚马逊相关包添加到requirements.txt
  1. 我将导入语句从:

  1. 将 URI 方案更改为 s3n 和 s3a

我查看了有关 MWAA 以及 Airflow 2.0.2 的官方文档和博客,并进行了上述更改。但到目前为止没有任何效果。我寻求帮助以尽早解决此错误。提前致谢

0 投票
1 回答
234 浏览

amazon-web-services - AWS MWAA 定价

我不清楚 aws mwaa 文档是否说以下内容“使用 Amazon Managed Workflows for Apache Airflow (MWAA),您只需为使用的内容付费。没有最低费用或前期承诺。您为您的 Airflow 环境的时间付费运行..”,为什么需要 24/7 环境成本?如果我只想每天运行一次 ETL 作业,我是否必须 24 小时为环境付费?

0 投票
0 回答
46 浏览

amazon-web-services - 托管的 apache 气流 AWS 日志组问题

我们已经管理在 AWS 上运行的 apache 气流,我们 在 CloudTrail 中的日志“ResourceAlreadyExistsException”错误中遇到问题 我们尝试了以下 aws 解决方案中提到的多种方法来解决上述错误,但仍然没有解决错误 https://docs.aws.amazon。 com/mwaa/latest/userguide/t-cloudwatch-cloudtrail-logs.html 在此处输入图像描述

任何建议将不胜感激

0 投票
1 回答
216 浏览

postgresql - 使用 Apache Airflow 更新和维护 postgres 表

处理需要我从一个 postgres 表中提取数据并将数据更新到另一个环境中的另一个 Postgres 表的 ETL 过程(相同的列名)。目前,我正在 Windows EC2 实例中运行 python 作业,并且我正在使用pangres upsert 库来更新现有行并插入新行。

但是,我的组织希望我在 AWS 上的托管 Apache Airflow 中移动 python ETL 脚本。

我一直在学习 DAG,大部分教程和文章都是关于使用钩子或运算符从 postgres 表中查询数据。

但是,我希望了解如何使用表 B 中的新记录增量更新现有表 A(即 upsert)(并忽略/覆盖现有的匹配行)。

任何解释如何执行这个简单任务的代码块 (DAG) 都会非常有帮助。

0 投票
1 回答
32 浏览

python - AWS 管理的气流到 Databricks SSL 错误

我正在尝试使用气流提供的 databricks 内置运算符,例如 DatabricksSubmitRunOperator 或 DatabricksRunNowOperator 但我无法使用它,它给出以下错误:

尝试 1 次对 Databricks 的 API 请求失败,原因是:HTTPSConnectionPool(host='usdev.databaricks.xyz.com', port=443):最大重试次数超过了 url:/api/2.0/jobs/run-now(由 SSLError 引起( SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败:证书链中的自签名证书 (_ssl.c:1091)'))

如果我要使用自定义 python 代码,那么我可以在 python 的请求模块中提供 verify = False,但由于我使用的是这个内置运算符,我看不到任何选项来禁用从气流到数据块的 ssl 验证。

正在使用的示例代码:

0 投票
0 回答
45 浏览

amazon-web-services - 使用 AWS Managed Airflow 编排 Redshift 存储过程

我创建了许多 redshift 存储过程(15-20),其中一些可以异步运行,而许多必须以同步方式运行。

我尝试使用 Aws Eventbridge 以异步和同步方式安排它们,但发现了许多限制(故障处理和编排)。


我继续使用 AWS Managed Airflow。

  • 我们如何在气流中进行redshift集群连接?

  • 这样我们就可以在气流 dags 和存储过程中调用我们的存储过程。会在redshift集群中运行吗?

  • 是否存在任何用于连接的 RedshiftOperator,或者我们可以使用气流菜单中的连接选项创建与 Redshift 集群的直接连接?

  • 如果可能,我们是否可以仅使用 AWS 控制台而不使用 Aws cli 来实现所有这些?

0 投票
0 回答
61 浏览

airflow - “排队 Dttm”(排队作业)之前的气流“执行日期”方式

我有一个 MWAA 实例,似乎有几个 DAG 长时间停留在排队状态。这些 DAG 之间的共同点是执行时间总是在 Queued Dttm 之前,并且差异很大。

这会使我的 DAG 不健康并解释我的 DAG 长时间卡住的事实吗? 在此处输入图像描述

0 投票
0 回答
19 浏览

airflow - 生产中的 MWAA - 任务因未知原因排队

有人在生产中使用 MWAA 吗?

我们目前有大约 500 个 DAG 正在运行,并且我们看到了一种意外行为,任务由于未知原因而处于“排队”状态。

任务处于“排队”状态,这不是执行的有效状态。必须清除任务才能运行。

它是随机发生的,可以完美运行一天,然后一些任务将保持排队。除非我们手动将它们标记为失败,否则这些任务将永远保持这种状态。

即使池是空的,DAG 运行也可以保持这种“排队”状态,我没有看到任何解释这一点的原因。

它发生在约 5% 的任务上,而其他所有任务都运行顺利。

你有没有遇到过这种行为?

0 投票
2 回答
104 浏览

python - 如何使用 PostgresOperator 在气流中调用存储过程函数

我不确定如何在气流运算符中调用存储过程 - 例如。存储过程是-调用goal.dba.sp_ctrl_calendar()

我的代码-

这种方法正确吗?