问题标签 [mwaa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 mwaa dags 中导入 pythin 模块时出错
我正在使用 MWAA。我在 mwaa requirements.txt 文件中包含了 pysftp 作为
在 MWAA 的调度程序日志组中,我什至可以看到它正在被下载。
但是当我试图在我的 dags 中导入它时,我收到以下错误
什么可能导致此问题以及可以采取哪些措施来解决它?
amazon-web-services - AWS MWAA/Apache 气流:如何调试 on_failure_callback 本身
有这样的一天:
DAG 有目的地按预期失败。但是,on_failure_opsgenie
没有做它应该做的;如何在 AWS MWAA 中获取日志或调试失败的 on-failure-callback?
amazon-web-services - 如何在 MWAA 气流中导入气流变量
我无法通过 Boto3 和 aws_mwaa 将新的气流变量从 json 文件导入到我的 MWAA 环境中。aws_mwaa/cli 的响应代码是 400。但是,我可以获取现有变量的值。请问有什么帮助吗?
airflow - Issue with Variable access in aws airflow
when I tried to access varaibles in aws managed airflow 2.0.1, got the below exception.
vars = Variable.get("some_variable", deserialize_json=True)
It is working fine with airflow 1.1.0 version, not sure what got changed with 2.0.1
Any help would be appreciated.Thanks
amazon-web-services - AWS Airflow v2.0.2 不显示 Google Cloud 连接类型
我想将数据从 Google Storage 加载到 S3
为此,我想使用GoogleCloudStorageToS3Operator,它需要gcp_conn_id
所以,我需要设置谷歌云连接类型
为此,我添加了
apache-气流[谷歌]==2.0.2
到 requirements.txt
但 Google Cloud 连接类型仍不在 MWAA 的连接下拉列表中
同样的方法适用于 mwaa 本地跑步者
https://github.com/aws/aws-mwaa-local-runner
我猜它在 MWAA 中不起作用,因为这里讨论了安全原因 https://lists.apache.org/thread.html/r67dca5845c48cec4c0b3c34c3584f7c759a0b010172b94d75b3188a3%40%3Cdev.airflow.apache.org%3E
但是,是否有任何解决方法可以在 MWAA 中添加 Google Cloud 连接类型?
python - AWS-MWAA 上的硒和铬
我目前正在使用 AWS Apache Airflow 服务 (MWAA),我一直需要使用 selenium 运行一些网络抓取代码,我确实设法将“chromedriver”和“selenium”添加到项目的依赖项中,但我已经一直在努力为其添加铬(或任何无头网络浏览器)。
AWS 只允许使用 pip 为 MWAA 安装 requirements.txt 作为依赖项,因此我不能只在构建周期中添加“sudo yum install -y chromium”。我想知道是否可以在环境中添加 chromedriver。
提前致谢!
python - MWAA:从 requirements.txt 安装 Airflow Google Providers 时遇到问题
我正在尝试设置集成 S3 和 GCP 的 Pub/Sub 的 MWAA Airflow 2.0 环境。虽然我们在初始化环境方面没有问题,但我们在安装一些依赖项和导入 Python 包时遇到了问题——特别是apache-airflow-providers-google==2.2.0。
我们遵循了基于官方 MWAA Python 文档的所有说明。我们已经包含了AWS 规定的约束文件,激活了所有 Airflow 日志配置,并使用MWAA 本地运行器测试了 requirements.txt 文件。更新我们的 MWAA 环境要求时的结果总是这样
在使用MWAA 本地运行器进行测试时,我们观察到使用带有约束的 requirements.txt 文件仍然需要很长时间才能解决。安装需要超过 10-30 分钟,这是不好的。
作为实验,我们尝试使用忽略约束和固定版本控制的 requirements.txt 文件版本。这样做会成功安装软件包,并且我们不再在 MWAA 本地运行器和我们的 MWAA 环境本身上收到导入错误。但是,无论如何,我们所有的 dag 都将无法运行。每当我们这样做时,也无法访问气流日志。
我和团队一直在尝试为我们的不同应用程序和 ETL 管道启动和运行 MWAA 环境,但我们似乎无法让事情顺利进行。任何帮助,将不胜感激!
amazon-web-services - 从 MWAA 运行 jar 的最佳方法是什么?
我想运行 EMR spark 作业,它将数据输出到 S3,当作业完成时终止集群并提交将数据导入 Redshift 的自定义 jar
我正在将所有 jar 文件部署到 S3 文件夹
对于 EMR,我使用 Airflow EMR/Livy 操作员提交可以轻松配置为从 S3 挑选罐子的作业
我应该使用什么来在 Airflow 中从 S3 提交自定义 jar?
现在我使用接下来的气流 SSH 操作符:
- 将 jar 文件(如果不存在)从 s3 复制到 temp 文件夹
- 使用 java -cp 命令从 cmd 提交 jar
另外,我不喜欢直接在 Airflow 上提交 jar 的想法,因为如果 jar 需要大量资源/时间来运行,它可能会过载
我想知道,有没有更好的方法来做到这一点?
mwaa - MWAA:在代理后面安装 python 要求
我们已经启动了一个私有 MWAA 环境。我们能够访问 UI,但是在安装我们的 python 要求时遇到了一些问题。MWAA 从 S3 获取需求文件,但在尝试安装 python 包时遇到超时。
这是意料之中的,因为我们在代理后面,所以我的问题是:我们如何告诉 MWAA 在安装我们的 python 依赖项时使用我们的代理?
这就是我们的 CloudWatch 日志流 (requirements_install_ip*) 告诉我们的: