问题标签 [aws-glue]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
aws-glue - 创建 AWS Glue 作业时启用服务器端加密
在 AWS Glue 控制台中,我可以创建启用了服务器端加密的作业。但是,似乎无法使用 CloudFormation 执行此操作,也无法使用 node 或 python SDK。为什么控制台的功能与 CloudFormation 和 SDK 的功能之间存在这种不匹配?是否有另一种方法可以以编程方式为 Glue 作业启用 SSE?
谢谢
json - AWS Glue Crawler 将 json 文件分类为 UNKNOWN
我正在从事一项 ETL 工作,该工作将把 JSON 文件摄取到 RDS 暂存表中。我配置的爬虫可以对小于 1MB 的 JSON 文件进行分类。如果我缩小文件(而不是漂亮的打印),如果结果小于 1MB,它将毫无问题地对文件进行分类。
我很难想出一个解决方法。我尝试将 JSON 转换为 BSON 或 GZIPing JSON 文件,但它仍然被归类为 UNKNOWN。
有没有其他人遇到过这个问题?有一个更好的方法吗?
amazon-web-services - 爬虫可以更新 AWS Glue 中导入的表吗?
我正在熟悉 AWS Glue 中的爬虫。我从 Athena 导入了一个数据库目录,并希望每天爬取这些表的数据位置,以便在添加数据时自动更新它们的分区。
但是,我的爬虫似乎只创建新表,与从 Athena 导入的表不同。他们似乎没有更新我现有的表格。有没有办法做到这一点?在他们的文档中没有看到任何提及它。
amazon-web-services - AWS Glue 爬虫未创建表
我有一个在 AWS Glue 中创建的爬虫,它在成功完成后不会在数据目录中创建表。
爬虫运行大约需要 20 秒,日志显示它已成功完成。CloudWatch 日志显示:
- 基准测试:为 Crawler 运行 Start Crawl
- 基准测试:分类完成,将结果写入数据库
- 基准:完成写入目录
- Benchmark:爬虫已完成运行,处于就绪状态
我不知道为什么没有创建数据目录中的表。AWS Docs 对调试没有多大帮助。
python - AWS Glue - 在插入之前截断目标 postgres 表
我试图在插入之前截断一个 postgres 目标表,一般来说,我试图利用已经在 GLUE 中创建的连接来触发外部函数。
有没有人能够这样做?
python - 在 AWS Glue / pyspark 中将纪元转换为日期时间
我有一个使用 pyspark 在 AWS Glue 中处理的数据框,我的 df 中的一条消息如下所示:
我正在尝试将 body.message_time (以毫秒为单位的纪元)转换为日期时间字段。我尝试了 from_unixtime 函数:
给我这个错误:
我只是将该列传递给 from_unixtime 函数。知道如何解决这个问题吗?
谢谢
amazon-web-services - Aws 胶水触发器不起作用
我尝试使用正确的值运行 AWS 胶水触发器,但它不会运行我们已经设置触发器的作业。
例如我有 Job1 和 Job2。在完成 Job1 时,我想运行 Job2。Job1 正在通过,但无法触发 Job2。
你能帮我知道我错过了什么吗?
apache-spark - 将多个原始文件合并为单个镶木地板文件
我在 S3 中有大量由 yyyy/mm/dd/hh 分区的事件。每个分区都有大约 80.000 个原始文本文件。每个原始文件都有大约 1.000 个 JSON 格式的事件。
当我运行脚本进行转换时:
我最终得到了跨分区的大量小文件,如下所示:
它们每个的大小为 1-3KB。数字大致对应于我拥有的原始文件的数量。
我的印象是 Glue 将从目录中获取所有事件,按照我想要的方式对它们进行分区,并将每个分区存储在一个文件中。
我该如何做到这一点?
sql-server - AWS GLUE - SQL 服务器 SSL 加密错误
我正在尝试使用 AWS Glue 将数据从 EC2 实例中的 SQL Server 上传到 RedShift。
我已经创建了 Connections 和 Crawlers 并且它工作正常。
然后我创建了一个 Job 来加载我得到以下错误的数据。
驱动程序无法使用安全套接字层 (SSL) 加密建立与 SQL Server 的安全连接。错误:“sun.security.validator.ValidatorException:PKIX 路径构建失败:sun.security.provider.certpath.SunCertPathBuilderException:无法找到请求目标的有效证书路径”。
日志:
amazon-web-services - 在 AWS Glue 中聚合数据帧的好方法是什么
我正在尝试在 AWS Glue 中聚合数据框。我使用了以下 pySpark 代码来执行聚合:
有没有更好的方法在 AWS Glue 中执行聚合?
谢谢!