问题标签 [aws-glue-data-catalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-s3 - 使用 AWS Glue 从 RDS -> S3 移动数据
我正在尝试通过 AWS Glue 将整个表从 MySQL 数据库 (RDS) 加载到 S3。
我已经配置了 RDS 连接并使用爬虫创建了 Glue 表。
现在我必须执行 ETL 作业以将表从 RDS 加载到 S3。但是,在正确遵循 AWS 文档过程之后,在 S3 目录中,我找到了一些文件,但这些文件都不是我在 Glue 的作业中请求的 JSON 文件(带有标题和数据)。
我哪里错了?
谢谢你。
amazon-dynamodb - 通过在 EMR 上运行的 PySpark 中的 Glue 数据目录访问 DynamoDB 时,绝对 URI 异常中的相对路径
我正在 AWS EMR 上执行一个 pyspark 应用程序,该应用程序配置为使用 AWS Glue 数据目录作为元存储。我在 AWS Glue 中有一个指向 DynamoDB 表的表设置。现在在我的 pyspark 脚本中,我正在尝试访问 Glue 表。我能够做到show tables
并且能够看到胶水表。但是当我尝试查询表格时,我遇到了异常,
pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: arn:aws:dynamodb:<region>:<acct_id>:table/DDBTABLE;'
我在 pyspark 脚本中的查询:
spark.sql("select * from ddbtable").show()
在这方面找不到任何好的参考。我看到人们谈论spark.sql.warehouse.dir
. 但不确定它与粘合数据目录有何关系。任何输入?
python-3.x - 如何通过 boto 库为 EMR 集群选项配置“使用 AWS Glue 数据目录获取表元数据”?
我正在尝试通过使用 python boto 库编写 AWS lambda 函数来创建 EMR 集群。但是我能够创建集群,但我想使用“AWS Glue 数据目录用于表元数据”,以便我可以使用 spark 直接读取来自胶水数据目录。通过 AWS 用户界面创建 EMR 集群时,我通常选中一个复选框(“使用 AWS Glue 数据目录获取表元数据”),这解决了我的目的。但我不知道如何实现同样通过 boto 库。
下面是我用来创建 EMR 集群的 python 代码。
我没有找到任何线索如何实现它。请帮忙。
amazon-web-services - 如何使用 AWS Glue 将存储在 S3 中的无标题、压缩、管道分隔的文件转换为镶木地板
目前,我在 S3 中有数千个无标头、管道分隔的 GZIP 压缩文件,总计约 10TB,具有相同的架构。在 AWS Glue 中,(1) 添加头文件,(2) 使用文件中的“日期”字段转换为按周分区的镶木地板格式,(3) 将文件添加到 Glue 的最佳方法是什么用于在 AWS Athena 中进行查询的可访问性数据目录?
amazon-web-services - aws 爬虫未创建 awsdatacatalog
使用 aws 爬虫后,查询 athena 时出现以下错误... SYNTAX_ERROR: line 1:15: Table awsdatacatalog.datahub2.datahub2 does not exist
我试过创建一个新的爬虫、一个新的数据库和表。唯一没有改变的是数据,但是当爬虫在 2 周前运行时这很好。
名称 Conversations3 描述 为每个 S3 路径创建单个架构 false 安全配置
标签
状态就绪计划
最后更新时间 2019 年 5 月 20 日星期一 15:07:07 GMT+100 创建日期 2019 年 5 月 20 日星期一 15:07:07 GMT+100 数据库 datahub2 服务角色 service-role/AWSGlueServiceRole-datahub 选择的分类器
数据存储 S3 包括路径 s3 ://s3-itso-transithub-datastreams/retailerConversation/temp/10 排除模式
配置选项 数据存储中的模式更新 更新数据目录中的表定义。数据存储中的对象删除 在数据目录中将表标记为已弃用。
在 2 周前,这个爬虫正在创建一个可以在 athena 中无错误查询的表。
apache-spark - DynamicFrame 解决 Array 和 Struct 之间的选择
我正在使用 AWS Glue 抓取 XML 文件并将它们添加到 Glue 数据库表中。I'm using 标识 XML 模式中的DynamicFrame
几个选项。我可以解决其中的大部分问题,但有一种情况我无法弄清楚。
XML 结构的相关部分是:
显示为 a and as a between or ,我怀疑DynamicFrame
是因为有些订单有一个,而其他订单有多个。我试过用 调用,但结果是我再也看不到. 我不确定这里还有什么可以尝试的,有什么想法吗?lineitems
struct
lineitems/lineitem
choice
array
struct
lineitem
lineitems
resolveChoice
project:array
element:unknown
lineitem
amazon-web-services - AWS Glue Crawler Unable to Classify CSV files
I'm unable to get the default crawler classifier, nor a custom classifier to work against many of my CSV files. The classification is listed as 'UNKNOWN'. I've tried re-running existing classifiers, as well as creating new ones. Is anyone aware of a specific configuration for a custom classifier for CSV files that works for files of any size?
I'm also unable to find any errors specific to this issue in the logs.
Although I have seen reference to issues for JSON files over 1MB in size, I can't find anything detailing this same issue for CSV files, nor a solution to the problem.
amazon-web-services - aws 胶水 rds 增量负载
我正在尝试使用 AWS 胶水将数据从 AWS RDS (MySQL) 加载到 redshift。我想增量加载数据。通过使用 Job Bookmarks,glue 可以只跟踪新添加的数据,但不能跟踪更新的行。有没有办法只加载更新的数据?可能是通过使用 MySQL 源表中的字段 updated_at 吗?
amazon-web-services - AWS Glue - boto3 爬虫未创建表
我正在尝试通过 boto3 库创建和运行 AWS 胶水爬虫。爬虫正在处理 s3 文件夹中的 JSON 文件。爬虫成功完成,当我检查日志时没有错误,但它没有在我的胶水数据库中创建任何表
这不是权限问题,因为我能够通过 CFT 创建相同的爬虫,并且当我运行它时,它会按预期创建表。我在使用 boto3 运行的代码中使用与 CFT 相同的角色来创建它。
已尝试使用 boto3 create_crawler() 和 run_crawler()。尝试在从 CFT 创建的爬虫上使用 boto3 update_crawler() 并更新 s3 目标路径。
aws-glue - AWS Glue 自定义分类器
我已经定义/设置了一个爬虫来读取和编目 S3 存储桶中的 avro 文件。但是爬虫/分类器无法读取字段的“doc”属性,因此它在目录中创建了一个包含字段名称和相应数据类型但没有 doc 字段值的模式。我正在探索创建自定义分类器的选项,该分类器将读取和填充字段的 doc 属性及其名称和类型。我浏览了 AWS 官方文档,但没有找到任何有关如何操作的信息/示例。谢谢。