问题标签 [aws-glue]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - AWS Glue:Rename_field() 在关系化后不起作用
我得到了一份需要执行以下任务的工作
- 关联数据
- 重命名包含 '.' 的字段名称,以便可以将其作为正常外观的字段名称导入 PostgreSQL。
这是代码
printSchema() 将架构显示为未更改。如果我写入数据库,字段名称仍然包含'.'。
如果我在关系化之前使用 ApplyMapping.apply() 更改字段名称,它会使子表消失。如果我在关系化之后使用 ApplyMapping.apply(),它只会删除名称包含“。”的所有字段。
最重要的是,无论我尝试什么,我都无法在同一个工作中对字段进行关系化和重命名。
我错过了什么还是这是 AWS Glue 错误?
amazon-web-services - AWS中的ETL管道使用s3作为数据湖如何处理增量更新
我在 AWS 中设置了 ETL 管道,如下所示
input_rawdata -> s3 -> lambda -> 触发 spark etl 脚本(通过 aws 胶水)-> 输出(s3,parquet 文件)
我的问题是假设以上是数据的初始加载,我如何设置运行每天(或每小时)来的增量批处理,以添加新行或更新现有记录
a.) 我如何继续附加到相同的 s3 parquet 文件。以便后续的 presto db 查询产生最新的数据。
b.) 如何处理重复记录获取查询的最新时间戳。
在 spark 脚本中,我是否需要创建源为 s3 的 Hive 外部表并在 presto db 中使用?
感谢您的任何投入。
pyspark-sql - 如何列出 AWS Glue 目录中的所有数据库和表?
我在 AWS Glue 控制台中创建了一个开发终端节点,现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext。
如何访问目录并列出所有数据库和表?平时sqlContext.sql("show tables").show()
不行。
可能有帮助的是CatalogConnection 类,但我不知道它在哪个包中。我尝试从 awsglue.context 导入,但没有成功。
sql-server - AWSGlue:它可以连接 SQL Server 数据存储吗?
我们在文档中发现以下内容: AWS Glue 可以使用 JDBC 协议连接到以下数据存储: • Amazon Redshift • Amazon Relational Database Service(MySQL、PostgreSQL、Aurora 和 MariaDB) • 可公开访问(Amazon Redshift、MySQL、PostgreSQL 、Aurora 和 MariaDB) 数据库
是否可以与 SQL Server 建立 JDBC 连接以进行数据存储?我正在尝试使用 SQL Server 中的数据存储创建 Crawler。
我应该在 RDS 上创建新的 SQL Server 实例吗?
谢谢
amazon-web-services - AWS Glue 无法访问输入数据集
我在 Glue / Athena 中注册了一个数据集,称之为my_db.table
. 我可以通过 Athena 查询它,一切似乎都正常。
我正在尝试在 Glue 作业中使用此表,但收到以下相当不透明的错误消息:
这似乎表明 Glue 无法看到我的表的目录条目,或者无法使用该条目中的信息,但我没有任何进一步的可见性。
有没有人遇到过这个错误,可能是什么原因造成的?
amazon-web-services - AWS Glue to Redshift:是否可以替换、更新或删除数据?
以下是关于我如何设置的一些要点:
- 我已将 CSV 文件上传到 S3,并设置了 Glue 爬虫来创建表和架构。
- 我有一个 Glue 作业设置,它使用 JDBC 连接将 Glue 表中的数据写入我们的 Amazon Redshift 数据库。Job 还负责映射列和创建红移表。
通过重新运行作业,我在 redshift 中得到了重复的行(如预期的那样)。但是,有没有办法在插入新数据之前替换或删除行,使用键或胶水设置的分区?
amazon-web-services - 如何创建分区具有不同列的 AWS Glue 表?('HIVE_PARTITION_SCHEMA_MISMATCH')
根据这个AWS Forum Thread,有谁知道如何使用 AWS Glue 创建一个 AWS Athena 表,其分区包含不同的架构(在这种情况下,来自表架构的不同列子集)?
目前,当我在这些数据上运行爬虫然后在 Athena 中进行查询时,我得到了错误'HIVE_PARTITION_SCHEMA_MISMATCH'
我的用例是:
- 分区代表天
- 文件代表事件
- 每个事件都是单个 s3 文件中的 json blob
- 事件包含列的子集(取决于事件的类型)
- 整个表的“模式”是所有事件类型的完整列集(这由 Glue 爬虫正确地放在一起)
- 每个分区的“模式”是当天发生的事件类型的列子集(因此在 Glue 中,每个分区可能具有与表模式不同的列子集)
- 我认为这种不一致会导致雅典娜出现错误
如果我要手动编写一个模式,我可以很好地做到这一点,因为只有一个表模式,并且 JSON 文件中缺少的键将被视为 Null。
提前致谢!
apache-spark - 带有 AWS Glue 的 Spark 目录:找不到数据库
我已经使用 Glue 数据目录创建了一个 EMR 集群。当我调用 spark-shell 时,我能够通过以下方式成功列出存储在 Glue 数据库中的表
但是,当我通过提交作业时spark-submit
出现致命错误
我正在通过spark-submit
通过提交的作业中创建我的 SparkSession
java - AWS Zeppelin 笔记本服务器 JDBC 访问被拒绝
当我运行 AWS Glue Zeppelin 笔记本服务器时,出现此错误:
所以我运行以下命令:
之后权限显示如下
但同样的错误仍然存在。关于如何修复它的任何输入?
试过这个
还是同样的错误。
python - 将 AWS Glue Python 与 NumPy 和 Pandas Python 包一起使用
在 AWS 上名为 Glue 的新 ETL 工具中使用 NumPy 和 Pandas 等包的最简单方法是什么?我在 Python 中有一个完整的脚本,我想在使用 NumPy 和 Pandas 的 AWS Glue 中运行。