问题标签 [aws-glue-data-catalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 同步两个 AWS Glue 数据目录
我有一个用例,我想同步位于不同账户的两个 AWS Glue 数据目录。
Glue 是否会在创建/删除新的数据库/表/分区时发出可以发布的通知?或者以其他方式了解其他 Glue 数据目录中发生的情况?
一种方法是收听该 Glue 帐户的 Cloudwatch 通知,但根据 Doc Cloudwatch 通知不可靠:
https://docs.aws.amazon.com/glue/latest/dg/automating-awsglue-with-cloudwatch-events.html
amazon-web-services - AWS 粘合中的数据类别包含什么?
我正在通过aws glue
. 但是我对数据库定义有点困惑。根据我在 aws doc 中可以找到的内容,A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.
. 我想知道数据库到底包含什么。它是否从其他数据源加载所有数据并在其上创建目录?还是只包含目录?我如何知道胶水数据库中表的大小?它使用什么类型的数据库,例如nosql
,rds
?
例如,我创建了一个爬虫来从中加载数据s3
并在glue
. 该glue
表是否包含来自 的所有数据s3 bucket
?如果我删除s3
存储桶,它是否会对针对爬虫创建的目录表运行的胶水中的其他作业产生影响?
如果目录表仅包含数据架构,如果我的数据源被修改,我如何保持它更新到数据?
amazon-athena - Amazon Athena 允许查看访问并拒绝表访问
我需要将某些字段从表中隐藏到特定的用户组。
我考虑过创建一个允许我屏蔽这些字段的视图。但是,一旦将权限设置为仅授予对视图的访问权限,查询就会失败,因为它们还需要访问视图下正在查询的表。
有没有一种方法(或条件)允许我授予对视图的访问权限但拒绝访问视图中使用的表?
amazon-web-services - 如何监控胶水爬虫执行统计信息?
我AWS Glue
用来做数据ETL。我找不到glue crawler
在 AWS 上监控执行统计数据的方法。我知道如何监控像这个文档这样的胶水作业:https ://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html 。但我想知道是否有类似的方法来检查glue crawler
执行?
我可以检查爬虫的日志,Cloudwatch
但它不是很可读。我很难弄清楚在指定时间段内发生了多少次调用。
amazon-web-services - 胶水爬虫读取模式匹配的 s3 文件
在指定s3 path
in 时AWS Glue Crawler
,我们是否可以提及一些模式以使爬虫仅读取具有特定名称的文件 ins3 folder
而不是读取路径中的每个文件?
就像是
s3://sample_folder/sample_file%pattern%.csv.
amazon-web-services - 为什么更改粘合作业脚本后目标数据不更新?
我已经定义了一个glue job
将数据从 s3 源存储桶转换为 s3 目标存储桶的方法。我在工作中使用的脚本是Python
. 它工作正常并将许多数据加载到目标存储桶。但后来我通过更新 python 脚本来删除一个字段 ( ) 来更改架构edited
:
重新运行作业后,s3 源存储桶上的新数据按照新方案到达,但目标存储桶上的旧数据没有更新。如何让glue
作业针对目标存储桶上的现有数据运行?我是否必须删除存储桶并再次重新运行作业?
apache-spark-sql - 收集 Glue 目录表的统计信息
在我们的项目中,我们使用AWS Glue Catalog
将数据存储S3
为Parquet
文件的表格。我们应用转换 (ETL)Spark-SQL
从这些表中读取数据并通过在每一步创建多个临时视图来派生最终结果集。那么,我们如何收集这些表上的统计信息,以便 Spark-SQL 使用这些统计信息来生成更好的计划?我知道在 Hive 中我们可以使用ANALYZE TABLE mytable COLLECT STATISTICS;
命令来收集统计信息。但是,当我对 Glue Catalog 表尝试相同的命令时,它会引发错误 -Can not create path from an empty string.
谁能告诉我如何收集这些粘合表上的统计信息?
示例表 DDL:
PS:请忽略 DDL 中的语法错误。如果需要其他信息,请告诉我
amazon-s3 - 如何在 Spark-SQL 中收集 AWS Glue(目录)表的统计信息
在我们的项目中,我们使用AWS Glue (catalog)
位置指向parquet
存储在S3
. 然后我们使用Spark-SQL
查询这些表来处理数据,并且经常陷入由于缺乏统计信息导致的性能问题(我认为)。我尝试使用该命令收集统计信息,
analyze table mytable compute stats
但它会引发错误 - Can not create path from empty string
。
我完全一无所知。我的问题是如何减轻这个错误,以便可以在这些 Glue 表上正确收集统计信息,然后 spark 可以利用这些信息来优化连接操作?
aws-glue - 使用 AWS Glue 目录的外部表和数据库
在创建外部模式时,我可以查看为使用“FROM DATA CATALOG”关键字创建的外部表创建/使用的 Glue 目录吗?
我去了 AWS Glue 控制台,“数据库”或“表”选项下没有任何内容。
我使用以下代码创建了一个外部架构:
并使用以下代码创建了一个外部表:
我可以使用 SVV_EXTERNAL_ 视图查看架构、数据库和表信息,但我认为我可以在控制台的 AWS Glue 下看到一些内容。