问题标签 [aws-glue-data-catalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
821 浏览

amazon-web-services - 同步两个 AWS Glue 数据目录

我有一个用例,我想同步位于不同账户的两个 AWS Glue 数据目录。

Glue 是否会在创建/删除新的数据库/表/分区时发出可以发布的通知?或者以其他方式了解其他 Glue 数据目录中发生的情况?

一种方法是收听该 Glue 帐户的 Cloudwatch 通知,但根据 Doc Cloudwatch 通知不可靠:

https://docs.aws.amazon.com/glue/latest/dg/automating-awsglue-with-cloudwatch-events.html

0 投票
1 回答
2400 浏览

amazon-web-services - 如何处理 AWS Glue 中的“无枚举常量”错误

我正在创建一个作业,AWS Glue但它在最后一步显示以下错误。

列映射正确显示如下截图。

在此处输入图像描述

我不明白哪个输入字段的数据无效?Glue 没有提供有关此错误的更多详细信息。我该如何调试这个问题?

0 投票
1 回答
249 浏览

amazon-web-services - AWS 粘合中的数据类别包含什么?

我正在通过aws glue. 但是我对数据库定义有点困惑。根据我在 aws doc 中可以找到的内容,A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.. 我想知道数据库到底包含什么。它是否从其他数据源加载所有数据并在其上创建目录?还是只包含目录?我如何知道胶水数据库中表的大小?它使用什么类型的数据库,例如nosqlrds

例如,我创建了一个爬虫来从中加载数据s3并在glue. 该glue表是否包含来自 的所有数据s3 bucket?如果我删除s3存储桶,它是否会对针对爬虫创建的目录表运行的胶水中的其他作业产生影响?

如果目录表仅包含数据架构,如果我的数据源被修改,我如何保持它更新到数据?

0 投票
2 回答
658 浏览

amazon-athena - Amazon Athena 允许查看访问并拒绝表访问

我需要将某些字段从表中隐藏到特定的用户组。

我考虑过创建一个允许我屏蔽这些字段的视图。但是,一旦将权限设置为仅授予对视图的访问权限,查询就会失败,因为它们还需要访问视图下正在查询的表。

有没有一种方法(或条件)允许我授予对视图的访问权限但拒绝访问视图中使用的表?

0 投票
1 回答
1228 浏览

amazon-web-services - 如何监控胶水爬虫执行统计信息?

AWS Glue用来做数据ETL。我找不到glue crawler在 AWS 上监控执行统计数据的方法。我知道如何监控像这个文档这样的胶水作业:https ://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html 。但我想知道是否有类似的方法来检查glue crawler执行?

我可以检查爬虫的日志,Cloudwatch但它不是很可读。我很难弄清楚在指定时间段内发生了多少次调用。

0 投票
3 回答
1651 浏览

amazon-web-services - 胶水爬虫读取模式匹配的 s3 文件

在指定s3 pathin 时AWS Glue Crawler,我们是否可以提及一些模式以使爬虫仅读取具有特定名称的文件 ins3 folder而不是读取路径中的每个文件?

就像是 s3://sample_folder/sample_file%pattern%.csv.

0 投票
1 回答
269 浏览

amazon-web-services - 为什么更改粘合作业脚本后目标数据不更新?

我已经定义了一个glue job将数据从 s3 源存储桶转换为 s3 目标存储桶的方法。我在工作中使用的脚本是Python. 它工作正常并将许多数据加载到目标存储桶。但后来我通过更新 python 脚本来删除一个字段 ( ) 来更改架构edited

重新运行作业后,s3 源存储桶上的新数据按照新方案到达,但目标存储桶上的旧数据没有更新。如何让glue作业针对目标存储桶上的现有数据运行?我是否必须删除存储桶并再次重新运行作业?

0 投票
0 回答
236 浏览

apache-spark-sql - 收集 Glue 目录表的统计信息

在我们的项目中,我们使用AWS Glue Catalog将数据存储S3Parquet文件的表格。我们应用转换 (ETL)Spark-SQL从这些表中读取数据并通过在每一步创建多个临时视图来派生最终结果集。那么,我们如何收集这些表上的统计信息,以便 Spark-SQL 使用这些统计信息来生成更好的计划?我知道在 Hive 中我们可以使用ANALYZE TABLE mytable COLLECT STATISTICS;命令来收集统计信息。但是,当我对 Glue Catalog 表尝试相同的命令时,它会引发错误 -Can not create path from an empty string. 谁能告诉我如何收集这些粘合表上的统计信息?

示例表 DDL:

PS:请忽略 DDL 中的语法错误。如果需要其他信息,请告诉我

0 投票
0 回答
238 浏览

amazon-s3 - 如何在 Spark-SQL 中收集 AWS Glue(目录)表的统计信息

在我们的项目中,我们使用AWS Glue (catalog)位置指向parquet存储在S3. 然后我们使用Spark-SQL查询这些表来处理数据,并且经常陷入由于缺乏统计信息导致的性能问题(我认为)。我尝试使用该命令收集统计信息, analyze table mytable compute stats但它会引发错误 - Can not create path from empty string

我完全一无所知。我的问题是如何减轻这个错误,以便可以在这些 Glue 表上正确收集统计信息,然后 spark 可以利用这些信息来优化连接操作?

0 投票
1 回答
1485 浏览

aws-glue - 使用 AWS Glue 目录的外部表和数据库

在创建外部模式时,我可以查看为使用“FROM DATA CATALOG”关键字创建的外部表创建/使用的 Glue 目录吗?

我去了 AWS Glue 控制台,“数据库”或“表”选项下没有任何内容。

我使用以下代码创建了一个外部架构:

并使用以下代码创建了一个外部表:

我可以使用 SVV_EXTERNAL_ 视图查看架构、数据库和表信息,但我认为我可以在控制台的 AWS Glue 下看到一些内容。