问题标签 [mwaa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 无法创建新的工作 MWAA 环境
在过去的两天里,我们无法创建新的工作 MWAA 环境。我们从 Terraform 开始 - 应用后,环境在控制台中显示为“可用”,但是当我单击“打开 UI”链接时,UI 永远不会出现。然后我们手动创建了几个环境,但结果相同。对我们来说,MWAA 即服务实际上已经停止了。
这是我们点击“Open Airflow UI”时看到的内容:
此页面不工作
zxxcvbnm-6666-4516-935b-bb9701f525e5-vpce.c20.us-west-2.airflow.amazonaws.com 没有发送任何数据。
ERR_EMPTY_RESPONSE
任何见解/提示表示赞赏!
amazon-web-services - EMR 上的 Spark 作业提交错误:java.net.URISyntaxException:索引 3 处的预期方案特定部分:s3
我通过 AWS 的 Managed Airflow 服务 (MWAA) 向 EMR 提交 Spark 作业。这些作业在 MWAA 1.10.12 版中运行良好。最近,AWS 发布了更新版本的 MWAA,即 2.0.2。我用这个版本创建了一个新环境,并尝试将相同的作业提交给 EMR。但它失败并出现以下错误:
spark-submit命令如下所示:
作业提交在 10 秒内失败。因此,未创建 YARN 应用程序 ID。
我试图解决的错误:
- 我将亚马逊相关包添加到
requirements.txt
:
- 我将导入语句从:
至
- 将 URI 方案更改为 s3n 和 s3a
我查看了有关 MWAA 以及 Airflow 2.0.2 的官方文档和博客,并进行了上述更改。但到目前为止没有任何效果。我寻求帮助以尽早解决此错误。提前致谢
amazon-web-services - AWS MWAA 定价
我不清楚 aws mwaa 文档是否说以下内容“使用 Amazon Managed Workflows for Apache Airflow (MWAA),您只需为使用的内容付费。没有最低费用或前期承诺。您为您的 Airflow 环境的时间付费运行..”,为什么需要 24/7 环境成本?如果我只想每天运行一次 ETL 作业,我是否必须 24 小时为环境付费?
amazon-web-services - 托管的 apache 气流 AWS 日志组问题
我们已经管理在 AWS 上运行的 apache 气流,我们 在 CloudTrail 中的日志“ResourceAlreadyExistsException”错误中遇到问题 我们尝试了以下 aws 解决方案中提到的多种方法来解决上述错误,但仍然没有解决错误 https://docs.aws.amazon。 com/mwaa/latest/userguide/t-cloudwatch-cloudtrail-logs.html
任何建议将不胜感激
postgresql - 使用 Apache Airflow 更新和维护 postgres 表
处理需要我从一个 postgres 表中提取数据并将数据更新到另一个环境中的另一个 Postgres 表的 ETL 过程(相同的列名)。目前,我正在 Windows EC2 实例中运行 python 作业,并且我正在使用pangres upsert 库来更新现有行并插入新行。
但是,我的组织希望我在 AWS 上的托管 Apache Airflow 中移动 python ETL 脚本。
我一直在学习 DAG,大部分教程和文章都是关于使用钩子或运算符从 postgres 表中查询数据。
但是,我希望了解如何使用表 B 中的新记录增量更新现有表 A(即 upsert)(并忽略/覆盖现有的匹配行)。
任何解释如何执行这个简单任务的代码块 (DAG) 都会非常有帮助。
python - AWS 管理的气流到 Databricks SSL 错误
我正在尝试使用气流提供的 databricks 内置运算符,例如 DatabricksSubmitRunOperator 或 DatabricksRunNowOperator 但我无法使用它,它给出以下错误:
尝试 1 次对 Databricks 的 API 请求失败,原因是:HTTPSConnectionPool(host='usdev.databaricks.xyz.com', port=443):最大重试次数超过了 url:/api/2.0/jobs/run-now(由 SSLError 引起( SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] 证书验证失败:证书链中的自签名证书 (_ssl.c:1091)'))
如果我要使用自定义 python 代码,那么我可以在 python 的请求模块中提供 verify = False,但由于我使用的是这个内置运算符,我看不到任何选项来禁用从气流到数据块的 ssl 验证。
正在使用的示例代码:
amazon-web-services - 使用 AWS Managed Airflow 编排 Redshift 存储过程
我创建了许多 redshift 存储过程(15-20),其中一些可以异步运行,而许多必须以同步方式运行。
我尝试使用 Aws Eventbridge 以异步和同步方式安排它们,但发现了许多限制(故障处理和编排)。
我继续使用 AWS Managed Airflow。
我们如何在气流中进行redshift集群连接?
这样我们就可以在气流 dags 和存储过程中调用我们的存储过程。会在redshift集群中运行吗?
是否存在任何用于连接的 RedshiftOperator,或者我们可以使用气流菜单中的连接选项创建与 Redshift 集群的直接连接?
如果可能,我们是否可以仅使用 AWS 控制台而不使用 Aws cli 来实现所有这些?
airflow - 生产中的 MWAA - 任务因未知原因排队
有人在生产中使用 MWAA 吗?
我们目前有大约 500 个 DAG 正在运行,并且我们看到了一种意外行为,任务由于未知原因而处于“排队”状态。
任务处于“排队”状态,这不是执行的有效状态。必须清除任务才能运行。
它是随机发生的,可以完美运行一天,然后一些任务将保持排队。除非我们手动将它们标记为失败,否则这些任务将永远保持这种状态。
即使池是空的,DAG 运行也可以保持这种“排队”状态,我没有看到任何解释这一点的原因。
它发生在约 5% 的任务上,而其他所有任务都运行顺利。
你有没有遇到过这种行为?
python - 如何使用 PostgresOperator 在气流中调用存储过程函数
我不确定如何在气流运算符中调用存储过程 - 例如。存储过程是-调用goal.dba.sp_ctrl_calendar()
我的代码-
这种方法正确吗?