36

阅读 Amazon 文档后,我的理解是运行/测试 Glue 脚本的唯一方法是将其部署到开发端点并在必要时进行远程调试。同时,如果(Python)代码由多个文件和包组成,除主脚本外的所有文件都需要压缩。这一切让我觉得 Glue 不适合任何复杂的 ETL 任务,因为开发和测试很麻烦。我可以在本地测试我的 Spark 代码,而不必每次都将代码上传到 S3,并在 CI 服务器上验证测试,而无需支付开发 Glue 端点的费用。

4

9 回答 9

12

最终,截至 2019 年 8 月 28 日,亚马逊允许您下载二进制文件和

在本地使用 Scala 和 Python 开发、编译、调试和单步 Glue ETL 脚本和复杂的 Spark 应用程序。

查看此链接:https ://aws.amazon.com/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/

于 2019-08-30T08:13:12.707 回答
8

我与 AWS 销售工程师交谈,他们说不行,您只能通过运行 Glue 转换(在云中)来测试 Glue 代码。他提到正在测试一种叫做 Outpost 的东西来允许本地操作,但它还没有公开可用。所以这似乎是一个可靠的“不”,这是一种耻辱,因为否则它看起来很不错。但是没有单元测试,对我来说是不行的。

于 2019-01-08T16:46:03.523 回答
7

您可以将胶水和 pyspark 代码保存在单独的文件中,并且可以在本地对 pyspark 代码进行单元测试。对于压缩依赖文件,我们编写了压缩文件并上传到 s3 位置的 shell 脚本,然后应用 CF 模板来部署胶水作业。为了检测依赖关系,我们创建了(粘合作业)_dependency.txt 文件。

于 2018-12-29T18:51:46.897 回答
4

现在有一个来自 AWS 的官方 docker,以便您可以在本地执行 Glue: https ://aws.amazon.com/blogs/big-data/building-an-aws-glue-etl-pipeline-locally-without-an- aws-帐户/

该页面上还有一个很好的分步指南

于 2020-11-23T17:51:39.510 回答
2

据我所知,如果你有很多远程资产,那会很棘手。使用 Windows,我通常在创作工作时运行开发端点和本地 zeppelin 笔记本。我每天都关闭它。

您可以使用作业编辑器 > 脚本编辑器来编辑、保存和运行作业。不确定成本差异。

于 2018-01-30T21:58:22.757 回答
2

我认为这里的关键是定义你想在本地进行什么样的测试。如果您正在进行单元测试(即仅测试一个独立于支持该脚本的 AWS 服务的 pyspark 脚本),那么请确保您可以在本地进行。在测试您在 pyspark 脚本中编写的逻辑时,使用模拟模块(如pytest-mockmonkeypatchunittest )模拟脚本外部的 AWS 和 Spark 服务。对于模块测试,您可以使用AWS EMR NotebooksZeppelinJupyter等工作簿环境。在这里,您可以针对测试数据源运行 Spark 代码,但您可以模拟 AWS 服务。
对于集成测试(即测试与它所依赖的服务集成的代码,但不是生产系统),您可以从 CI/CD 管道启动系统的测试实例,然后拥有计算资源(如pytest脚本或AWS Lambda)自动化您的脚本实现的工作流程。

于 2020-09-22T19:41:15.603 回答
1

您可以按如下方式执行此操作:

  1. 使用安装 PySpark

     >> pip install pyspark==2.4.3
    
  2. 使用 Python 依赖项预构建 AWS Glue-1.0 Jar:Download_Prebuild_Glue_Jar

  3. 将 awsglue 文件夹和 Jar 文件从github复制到您的 pycharm 项目中

  4. 从我的git 存储库中复制 Python 代码

  5. 在您的控制台上运行以下命令;确保输入您自己的路径:

     >> python com/mypackage/pack/glue-spark-pycharm-example.py
    

来自我自己的博客

于 2019-11-19T09:29:19.490 回答
1

添加到 CedricB,

出于开发/测试目的,无需将代码上传到 S3,您可以在本地设置 zeppelin notebook,建立 SSH 连接,以便访问数据目录/爬虫等。以及您的数据所在的 s3 存储桶。

完成所有测试后,您可以捆绑代码,上传到 S3 存储桶。然后在 S3 存储桶中创建一个指向 ETL 脚本的作业,以便作业可以运行,也可以调度。完成所有开发/测试后,请确保删除 dev 端点,因为即使是空闲时间我们也要付费。

问候

于 2018-02-16T09:18:33.113 回答
0

如果您想在 docker 中运行它,这里是一个链接

码头工人中心: https ://hub.docker.com/r/svajiraya/glue-dev-1.0

dockerfile 的 Git 存储库
https://github.com/svajiraya/aws-glue-libs/blob/glue-1.0/Dockerfile

于 2019-12-04T07:47:37.347 回答