“aws-glue”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

2068 浏览

amazon-web-services - AWS Glue：Rename_field() 在关系化后不起作用

我得到了一份需要执行以下任务的工作

关联数据
重命名包含 '.' 的字段名称，以便可以将其作为正常外观的字段名称导入 PostgreSQL。

这是代码

printSchema() 将架构显示为未更改。如果我写入数据库，字段名称仍然包含'.'。

如果我在关系化之前使用 ApplyMapping.apply() 更改字段名称，它会使子表消失。如果我在关系化之后使用 ApplyMapping.apply()，它只会删除名称包含“。”的所有字段。

最重要的是，无论我尝试什么，我都无法在同一个工作中对字段进行关系化和重命名。

我错过了什么还是这是 AWS Glue 错误？

amazon-web-services aws-glue

2017-08-30T22:33:35.943

0 投票

5 回答

2772 浏览

amazon-web-services - AWS中的ETL管道使用s3作为数据湖如何处理增量更新

我在 AWS 中设置了 ETL 管道，如下所示

input_rawdata -> s3 -> lambda -> 触发 spark etl 脚本（通过 aws 胶水）-> 输出（s3，parquet 文件）

我的问题是假设以上是数据的初始加载，我如何设置运行每天（或每小时）来的增量批处理，以添加新行或更新现有记录

a.) 我如何继续附加到相同的 s3 parquet 文件。以便后续的 presto db 查询产生最新的数据。

b.) 如何处理重复记录获取查询的最新时间戳。

在 spark 脚本中，我是否需要创建源为 s3 的 Hive 外部表并在 presto db 中使用？

感谢您的任何投入。

2017-09-06T04:23:43.330

0 投票

3 回答

11619 浏览

pyspark-sql - 如何列出 AWS Glue 目录中的所有数据库和表？

我在 AWS Glue 控制台中创建了一个开发终端节点，现在我可以在gluepyspark 控制台中访问 SparkContext 和 SQLContext。

如何访问目录并列出所有数据库和表？平时sqlContext.sql("show tables").show()不行。

可能有帮助的是CatalogConnection 类，但我不知道它在哪个包中。我尝试从 awsglue.context 导入，但没有成功。

pyspark-sql aws-glue

2017-09-06T16:45:58.010

0 投票

3 回答

1933 浏览

sql-server - AWSGlue：它可以连接 SQL Server 数据存储吗？

我们在文档中发现以下内容： AWS Glue 可以使用 JDBC 协议连接到以下数据存储： • Amazon Redshift • Amazon Relational Database Service（MySQL、PostgreSQL、Aurora 和 MariaDB） • 可公开访问（Amazon Redshift、MySQL、PostgreSQL 、Aurora 和 MariaDB) 数据库

是否可以与 SQL Server 建立 JDBC 连接以进行数据存储？我正在尝试使用 SQL Server 中的数据存储创建 Crawler。

我应该在 RDS 上创建新的 SQL Server 实例吗？

谢谢

sql-server amazon-web-services aws-glue

2017-09-07T16:46:54.017

0 投票

2 回答

4476 浏览

amazon-web-services - AWS Glue 无法访问输入数据集

我在 Glue / Athena 中注册了一个数据集，称之为my_db.table. 我可以通过 Athena 查询它，一切似乎都正常。

我正在尝试在 Glue 作业中使用此表，但收到以下相当不透明的错误消息：

这似乎表明 Glue 无法看到我的表的目录条目，或者无法使用该条目中的信息，但我没有任何进一步的可见性。

有没有人遇到过这个错误，可能是什么原因造成的？

amazon-web-services pyspark amazon-athena aws-glue

2017-09-07T21:59:45.043

0 投票

6 回答

28963 浏览

amazon-web-services - AWS Glue to Redshift：是否可以替换、更新或删除数据？

以下是关于我如何设置的一些要点：

我已将 CSV 文件上传到 S3，并设置了 Glue 爬虫来创建表和架构。
我有一个 Glue 作业设置，它使用 JDBC 连接将 Glue 表中的数据写入我们的 Amazon Redshift 数据库。Job 还负责映射列和创建红移表。

通过重新运行作业，我在 redshift 中得到了重复的行（如预期的那样）。但是，有没有办法在插入新数据之前替换或删除行，使用键或胶水设置的分区？

amazon-web-services jdbc pyspark aws-glue

2017-09-14T21:08:51.883

0 投票

4 回答

12534 浏览

amazon-web-services - 如何创建分区具有不同列的 AWS Glue 表？('HIVE_PARTITION_SCHEMA_MISMATCH')

根据这个AWS Forum Thread，有谁知道如何使用 AWS Glue 创建一个 AWS Athena 表，其分区包含不同的架构（在这种情况下，来自表架构的不同列子集）？

目前，当我在这些数据上运行爬虫然后在 Athena 中进行查询时，我得到了错误'HIVE_PARTITION_SCHEMA_MISMATCH'

我的用例是：

分区代表天
文件代表事件
每个事件都是单个 s3 文件中的 json blob
事件包含列的子集（取决于事件的类型）
整个表的“模式”是所有事件类型的完整列集（这由 Glue 爬虫正确地放在一起）
每个分区的“模式”是当天发生的事件类型的列子集（因此在 Glue 中，每个分区可能具有与表模式不同的列子集）
我认为这种不一致会导致雅典娜出现错误

如果我要手动编写一个模式，我可以很好地做到这一点，因为只有一个表模式，并且 JSON 文件中缺少的键将被视为 Null。

提前致谢！

amazon-web-services amazon-s3 amazon-athena aws-glue

2017-09-15T13:44:53.640

0 投票

4 回答

11711 浏览

apache-spark - 带有 AWS Glue 的 Spark 目录：找不到数据库

我已经使用 Glue 数据目录创建了一个 EMR 集群。当我调用 spark-shell 时，我能够通过以下方式成功列出存储在 Glue 数据库中的表

但是，当我通过提交作业时spark-submit出现致命错误

我正在通过spark-submit通过提交的作业中创建我的 SparkSession

apache-spark amazon-emr aws-glue

2017-09-19T03:29:37.297

0 投票

0 回答

183 浏览

java - AWS Zeppelin 笔记本服务器 JDBC 访问被拒绝

当我运行 AWS Glue Zeppelin 笔记本服务器时，出现此错误：

所以我运行以下命令：

之后权限显示如下

但同样的错误仍然存在。关于如何修复它的任何输入？

试过这个

还是同样的错误。

java linux jdbc amazon-ec2 aws-glue

2017-09-20T15:11:22.827

0 投票

12 回答

27789 浏览

python - 将 AWS Glue Python 与 NumPy 和 Pandas Python 包一起使用

在 AWS 上名为 Glue 的新 ETL 工具中使用 NumPy 和 Pandas 等包的最简单方法是什么？我在 Python 中有一个完整的脚本，我想在使用 NumPy 和 Pandas 的 AWS Glue 中运行。

python pandas amazon-web-services aws-lambda aws-glue

2017-09-20T18:42:49.650

问题标签 [aws-glue]

Reference