问题标签 [aws-glue]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2950 问题

0 投票

1 回答

1016 浏览

aws-glue - 创建 AWS Glue 作业时启用服务器端加密

在 AWS Glue 控制台中，我可以创建启用了服务器端加密的作业。但是，似乎无法使用 CloudFormation 执行此操作，也无法使用 node 或 python SDK。为什么控制台的功能与 CloudFormation 和 SDK 的功能之间存在这种不匹配？是否有另一种方法可以以编程方式为 Glue 作业启用 SSE？

谢谢

aws-glue

2017-10-25T00:19:50.527

0 投票

3 回答

6829 浏览

json - AWS Glue Crawler 将 json 文件分类为 UNKNOWN

我正在从事一项 ETL 工作，该工作将把 JSON 文件摄取到 RDS 暂存表中。我配置的爬虫可以对小于 1MB 的 JSON 文件进行分类。如果我缩小文件（而不是漂亮的打印），如果结果小于 1MB，它将毫无问题地对文件进行分类。

我很难想出一个解决方法。我尝试将 JSON 转换为 BSON 或 GZIPing JSON 文件，但它仍然被归类为 UNKNOWN。

有没有其他人遇到过这个问题？有一个更好的方法吗？

2017-10-25T15:43:23.907

0 投票

3 回答

1837 浏览

amazon-web-services - 爬虫可以更新 AWS Glue 中导入的表吗？

我正在熟悉 AWS Glue 中的爬虫。我从 Athena 导入了一个数据库目录，并希望每天爬取这些表的数据位置，以便在添加数据时自动更新它们的分区。

但是，我的爬虫似乎只创建新表，与从 Athena 导入的表不同。他们似乎没有更新我现有的表格。有没有办法做到这一点？在他们的文档中没有看到任何提及它。

amazon-web-services aws-glue

2017-10-26T20:05:21.027

0 投票

6 回答

18916 浏览

amazon-web-services - AWS Glue 爬虫未创建表

我有一个在 AWS Glue 中创建的爬虫，它在成功完成后不会在数据目录中创建表。

爬虫运行大约需要 20 秒，日志显示它已成功完成。CloudWatch 日志显示：

基准测试：为 Crawler 运行 Start Crawl
基准测试：分类完成，将结果写入数据库
基准：完成写入目录
Benchmark：爬虫已完成运行，处于就绪状态

我不知道为什么没有创建数据目录中的表。AWS Docs 对调试没有多大帮助。

amazon-web-services aws-glue

2017-11-01T17:02:39.290

0 投票

3 回答

10159 浏览

python - AWS Glue - 在插入之前截断目标 postgres 表

我试图在插入之前截断一个 postgres 目标表，一般来说，我试图利用已经在 GLUE 中创建的连接来触发外部函数。

有没有人能够这样做？

python postgresql pyspark aws-glue

2017-11-02T17:16:42.857

0 投票

1 回答

2475 浏览

python - 在 AWS Glue / pyspark 中将纪元转换为日期时间

我有一个使用 pyspark 在 AWS Glue 中处理的数据框，我的 df 中的一条消息如下所示：

我正在尝试将 body.message_time （以毫秒为单位的纪元）转换为日期时间字段。我尝试了 from_unixtime 函数：

给我这个错误：

我只是将该列传递给 from_unixtime 函数。知道如何解决这个问题吗？

谢谢

python apache-spark pyspark spark-dataframe aws-glue

2017-11-02T19:28:56.737

0 投票

3 回答

3890 浏览

amazon-web-services - Aws 胶水触发器不起作用

我尝试使用正确的值运行 AWS 胶水触发器，但它不会运行我们已经设置触发器的作业。

例如我有 Job1 和 Job2。在完成 Job1 时，我想运行 Job2。Job1 正在通过，但无法触发 Job2。

你能帮我知道我错过了什么吗？

amazon-web-services aws-glue

2017-11-06T11:47:22.150

0 投票

1 回答

4671 浏览

apache-spark - 将多个原始文件合并为单个镶木地板文件

我在 S3 中有大量由 yyyy/mm/dd/hh 分区的事件。每个分区都有大约 80.000 个原始文本文件。每个原始文件都有大约 1.000 个 JSON 格式的事件。

当我运行脚本进行转换时：

我最终得到了跨分区的大量小文件，如下所示：

它们每个的大小为 1-3KB。数字大致对应于我拥有的原始文件的数量。

我的印象是 Glue 将从目录中获取所有事件，按照我想要的方式对它们进行分区，并将每个分区存储在一个文件中。

我该如何做到这一点？

apache-spark pyspark etl aws-glue

2017-11-06T22:50:47.287

0 投票

0 回答

984 浏览

sql-server - AWS GLUE - SQL 服务器 SSL 加密错误

我正在尝试使用 AWS Glue 将数据从 EC2 实例中的 SQL Server 上传到 RedShift。

我已经创建了 Connections 和 Crawlers 并且它工作正常。

然后我创建了一个 Job 来加载我得到以下错误的数据。

驱动程序无法使用安全套接字层 (SSL) 加密建立与 SQL Server 的安全连接。错误：“sun.security.validator.ValidatorException：PKIX 路径构建失败：sun.security.provider.certpath.SunCertPathBuilderException：无法找到请求目标的有效证书路径”。

日志：

sql-server amazon-web-services ssl encryption aws-glue

2017-11-07T18:40:45.527

0 投票

1 回答

1569 浏览

amazon-web-services - 在 AWS Glue 中聚合数据帧的好方法是什么

我正在尝试在 AWS Glue 中聚合数据框。我使用了以下 pySpark 代码来执行聚合：

有没有更好的方法在 AWS Glue 中执行聚合？

谢谢！

amazon-web-services apache-spark spark-dataframe aws-glue

2017-11-09T10:45:12.690

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-glue]

Reference