问题标签 [aws-glue]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2068 浏览

amazon-web-services - AWS Glue:Rename_field() 在关系化后不起作用

我得到了一份需要执行以下任务的工作

  1. 关联数据
  2. 重命名包含 '.' 的字段名称,以便可以将其作为正常外观的字段名称导入 PostgreSQL。

这是代码

printSchema() 将架构显示为未更改。如果我写入数据库,字段名称仍然包含'.'。

如果我在关系化之前使用 ApplyMapping.apply() 更改字段名称,它会使子表消失。如果我在关系化之后使用 ApplyMapping.apply(),它只会删除名称包含“。”的所有字段。

最重要的是,无论我尝试什么,我都无法在同一个工作中对字段进行关系化和重命名。

我错过了什么还是这是 AWS Glue 错误?

0 投票
5 回答
2772 浏览

amazon-web-services - AWS中的ETL管道使用s3作为数据湖如何处理增量更新

我在 AWS 中设置了 ETL 管道,如下所示

input_rawdata -> s3 -> lambda -> 触发 spark etl 脚本(通过 aws 胶水)-> 输出(s3,parquet 文件)

我的问题是假设以上是数据的初始加载,我如何设置运行每天(或每小时)来的增量批处理,以添加新行或更新现有记录

a.) 我如何继续附加到相同的 s3 parquet 文件。以便后续的 presto db 查询产生最新的数据。

b.) 如何处理重复记录获取查询的最新时间戳。

在 spark 脚本中,我是否需要创建源为 s3 的 Hive 外部表并在 presto db 中使用?

感谢您的任何投入。

0 投票
3 回答
11619 浏览

pyspark-sql - 如何列出 AWS Glue 目录中的所有数据库和表?

我在 AWS Glue 控制台中创建了一个开发终端节点,现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext。

如何访问目录并列出所有数据库和表?平时sqlContext.sql("show tables").show()不行。

可能有帮助的是CatalogConnection 类,但我不知道它在哪个包中。我尝试从 awsglue.context 导入,但没有成功。

0 投票
3 回答
1933 浏览

sql-server - AWSGlue:它可以连接 SQL Server 数据存储吗?

我们在文档中发现以下内容: AWS Glue 可以使用 JDBC 协议连接到以下数据存储: • Amazon Redshift • Amazon Relational Database Service(MySQL、PostgreSQL、Aurora 和 MariaDB) • 可公开访问(Amazon Redshift、MySQL、PostgreSQL 、Aurora 和 MariaDB) 数据库

是否可以与 SQL Server 建立 JDBC 连接以进行数据存储?我正在尝试使用 SQL Server 中的数据存储创建 Crawler。

我应该在 RDS 上创建新的 SQL Server 实例吗?

谢谢

0 投票
2 回答
4476 浏览

amazon-web-services - AWS Glue 无法访问输入数据集

我在 Glue / Athena 中注册了一个数据集,称之为my_db.table. 我可以通过 Athena 查询它,一切似乎都正常。

我正在尝试在 Glue 作业中使用此表,但收到以下相当不透明的错误消息:

这似乎表明 Glue 无法看到我的表的目录条目,或者无法使用该条目中的信息,但我没有任何进一步的可见性。

有没有人遇到过这个错误,可能是什么原因造成的?

0 投票
6 回答
28963 浏览

amazon-web-services - AWS Glue to Redshift:是否可以替换、更新或删除数据?

以下是关于我如何设置的一些要点:

  • 我已将 CSV 文件上传到 S3,并设置了 Glue 爬虫来创建表和架构。
  • 我有一个 Glue 作业设置,它使用 JDBC 连接将 Glue 表中的数据写入我们的 Amazon Redshift 数据库。Job 还负责映射列和创建红移表。

通过重新运行作业,我在 redshift 中得到了重复的行(如预期的那样)。但是,有没有办法在插入新数据之前替换或删除行,使用键或胶水设置的分区?

0 投票
4 回答
12534 浏览

amazon-web-services - 如何创建分区具有不同列的 AWS Glue 表?('HIVE_PARTITION_SCHEMA_MISMATCH')

根据这个AWS Forum Thread,有谁知道如何使用 AWS Glue 创建一个 AWS Athena 表,其分区包含不同的架构(在这种情况下,来自表架构的不同列子集)?

目前,当我在这些数据上运行爬虫然后在 Athena 中进行查询时,我得到了错误'HIVE_PARTITION_SCHEMA_MISMATCH'

我的用例是:

  • 分区代表天
  • 文件代表事件
  • 每个事件都是单个 s3 文件中的 json blob
  • 事件包含列的子集(取决于事件的类型)
  • 整个表的“模式”是所有事件类型的完整列集(这由 Glue 爬虫正确地放在一起)
  • 每个分区的“模式”是当天发生的事件类型的列子集(因此在 Glue 中,每个分区可能具有与表模式不同的列子集)
  • 我认为这种不一致会导致雅典娜出现错误

如果我要手动编写一个模式,我可以很好地做到这一点,因为只有一个表模式,并且 JSON 文件中缺少的键将被视为 Null。

提前致谢!

0 投票
4 回答
11711 浏览

apache-spark - 带有 AWS Glue 的 Spark 目录:找不到数据库

我已经使用 Glue 数据目录创建了一个 EMR 集群。当我调用 spark-shell 时,我能够通过以下方式成功列出存储在 Glue 数据库中的表

但是,当我通过提交作业时spark-submit出现致命错误

我正在通过spark-submit通过提交的作业中创建我的 SparkSession

0 投票
0 回答
183 浏览

java - AWS Zeppelin 笔记本服务器 JDBC 访问被拒绝

当我运行 AWS Glue Zeppelin 笔记本服务器时,出现此错误:

所以我运行以下命令:

之后权限显示如下

但同样的错误仍然存​​在。关于如何修复它的任何输入?

试过这个

还是同样的错误。

0 投票
12 回答
27789 浏览

python - 将 AWS Glue Python 与 NumPy 和 Pandas Python 包一起使用

在 AWS 上名为 Glue 的新 ETL 工具中使用 NumPy 和 Pandas 等包的最简单方法是什么?我在 Python 中有一个完整的脚本,我想在使用 NumPy 和 Pandas 的 AWS Glue 中运行。