问题标签 [aws-glue-data-catalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1219 浏览

amazon-web-services - 如何在 Glue Spark ETL 作业上倒带作业书签?

我在这里读过,现在 Glue 提供了为 Spark ETL 作业倒带作业书签的能力。

不过,我还没有找到任何关于如何做到这一点的信息。“暂停”作业书签选项中的子选项似乎对倒带作业书签很有用,但我找不到如何实现它们(我正在使用 Glue 控制台。)

0 投票
0 回答
369 浏览

amazon-web-services - 对于 aws 胶水,如何抓取具有特殊字符(超过 1 个)作为分隔符的文件?

我有这种数据:-

如何在没有分隔符的情况下通过胶水正确解析它~|~

尝试使用 grok,但无法解析

0 投票
0 回答
147 浏览

aws-glue - 如何强制爬虫更新特定表?

我目前正在通过一个 firehose 传输流发送日志记录,该传输流使用我的胶水目录中为 parquet 文件的模式定义的表将记录格式化为 parquet。让我们称之为这张桌子log_table。然后将格式化的记录存储在 S3 存储桶中。

我遇到的问题是,当我尝试抓取在 s3 存储桶中找到的数据时,它没有更新log_table,而是创建了一个名为 的新表log_table_<some random string>。如何强制爬虫更新该特定表?

这里的很多帖子都讨论了为爬虫设置与组合相关模式、使用自定义分类器、甚至设置粘合表属性相关的某些属性,UPDATED_BY_CRAWLER但这些似乎都不起作用。

目前,交付流、粘合表、粘合爬虫是通过 Cloudformation 创建的。

传送流格式转换是这样配置的。

DataFormatConversionConfiguration: Enabled: True InputFormatConfiguration: Deserializer: OpenXJsonSerDe: CaseInsensitive: True OutputFormatConfiguration: Serializer: ParquetSerDe: Compression: SNAPPY SchemaConfiguration: CatalogId: !Ref AWS::AccountId RoleARN: !GetAtt DeliveryStreamRole.Arn DatabaseName: !Ref GlueDatabase TableName: !Ref TransactionLogsTable Region: !Ref AWS::Region VersionId: LATEST

爬虫是使用默认设置(名称、角色、s3 目标等)创建的。胶合表也是如此。

我希望爬虫更新log_table我用来告诉我的交付流 parquet 文件的架构应该是什么的内容。

0 投票
1 回答
52 浏览

python - Enable and Disable constraints on database using aws glue

I want to use aws glue connection to disable and enable constraints in tables in database instead of using jdbc connection in python.

The reason for this to avoid passing password in jdbc connection.

0 投票
1 回答
292 浏览

apache-spark - 使用 Glue + S3 的 Spark 基于成本的优化器

我在 EMR 集群上运行 Spark 作业。EMR 使用 AWS Glue 作为 Hive 元存储。作业通过 EMRFS 以 parquet 格式将数据写入 S3。我在SparkSession#table方法的帮助下使用 Spark SQL 读取数据帧。

是否可以使用 AWS Glue 配置Spark 的基于成本的优化器(CBO)?

AFAIK,Spark CBO 在元存储中存储表级统计信息。它适用于 Hive,但不适用于 Spark 默认元存储(嵌入式 Derby)。所以我的困惑是基于 CBO 是否可以使用 Glue 元存储的问题,如果它已经使用 Glue 作为 Spark SQL 的元存储。我想答案是肯定的,但仍然不确定。

0 投票
1 回答
412 浏览

aws-glue - AWS Glue Crawler 不附加数据

我创建了使用分类器将 csv 文件导入数据表的 aws 爬虫。哪个工作正常。

问题:每次爬虫覆盖旧数据。我想保留以前的数据并附加 csv 文件的新内容。

即我已经上传了 250 条记录的 csv 文件。当我执行该爬虫时,它填充了 250 行的表。

现在,如果我用其他内容替换该 csv 文件,那么它将覆盖旧的 250 行并仅用最新数据填充表。

谁能帮助我如何保留旧记录并附加新数据。

谢谢,

0 投票
1 回答
2948 浏览

hive - Athena 中的 JSON 数组读取不正确且无法取消嵌套

我有一个名为uf包含 JSON 对象数组的列。这是一个样机:

我试图将其作为子记录,但由于某种原因,我找不到首先将其取消嵌套的正确方法。然后我注意到我的整个数组被包装到另一个 JSON 对象中。

这就是我所在的位置:

我尝试了简单的选择并注意到结果是:

该列的定义如下:

定义是否不正确,这就是为什么我将整个数组包装在另一个 json 数组中的原因?

-- 编辑 这是我的 csv 文件的示例(制表符分隔)。过去两天试图查看是否是关于 JSON 的问题导致 Glue 无法将列识别为 JSON 数组,但我创建了一个新列,其中包含正确分配的简单 JSON 数组,array<struct但在查询后我遇到了与上面完全相同的问题

0 投票
1 回答
1652 浏览

amazon-web-services - 将数据从 AWS Glue 数据目录提取到外部文本文件

我正在编写一个 python 脚本,它应该读取 AWS Glue 数据目录中存在的元数据(仅模式)并将其写入文本文件。如何解决这个问题?

0 投票
1 回答
1765 浏览

amazon-web-services - 如何使用 boto3 更改 AWS Glue 爬虫创建的表的名称

我正在尝试使用 boto3 更改 AWS Crawler 创建的表名。这是代码:

收到以下错误:

你能告诉我这个问题的解决方案吗?谢谢!

0 投票
1 回答
835 浏览

amazon-web-services - AWS Glue 爬虫未使用内置分类器为固定长度文本文件创建表

我的数据文件如下所示:

当我不使用任何自定义分类器时,它不会创建任何表。

当我使用自定义分类器时,它创建了检测到 21 行的表。但期望是创建 7 行 3 列。你能告诉我,如何解决吗?