问题标签 [aws-glue-spark]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1045 浏览

jdbc - 从 Spark 数据框中插入 SQL Server 表中的选定列

我有一个 SQL Server 表,其架构与我的数据框不同。我想从我的数据框中选择一些列并将我选择的值“插入”到表中。

基本上类似于下面的代码,但在 pyspark 中:

我可以使用 spark.read 使用 jdbc 读取数据。就像下面这样:

要将数据写入/附加到具有所选值的表中,我相信我仍然可以使用“df_s3.write”,但我需要一个关于如何使用“.option”函数或其他方法使用插入语句的示例,如果这不工作。

提前致谢。

0 投票
0 回答
47 浏览

amazon-web-services - 如何使用 AWS Glue 处理多个表

作为进行数据验证的一部分,我有处理许多表的用例。表的数量几乎是 2000。由于严格的 SLA,现在需要同时处理许多表。由于 Glue 并发限制为 50(通过提出支持票我将其增加到 100。由于 100 是我的 AWS 区域的硬限制,因此它们无法进一步增加)。有没有更好的方法来处理我的数据?

0 投票
1 回答
96 浏览

python - Concat / Join / 将多列转换为一个结构列

我有一个非常大的遗留文件,大约有 5000 列和非常大量的记录。许多列被命名为等a_1,a_2,...,a_200

我想将列数连接到结构中(以便以后更好地处理数据),所以改为:

我想要 struct a { 1: true, 2: false, ... 200: true }

如何使用 Python 转换它,可能是 Panda 的?列总是具有相同的前缀,例如 a_、b_... 等。

问候

0 投票
0 回答
304 浏览

partitioning - 分区如何与 AWS Glue 作业一起使用

如果我每小时运行一个胶水作业,但按天划分......预期的功能是什么?该作业是否会首先为当天创建一个分区,然后后续作业会附加到该分区?是否有任何文档清楚说明这将如何工作?

0 投票
1 回答
318 浏览

amazon-web-services - How to add an index to an RDS database/table after AWS Glue script imports the data therein?

I have a typical AWS Glue-generated script that loads data from an S3 bucket to my Aurora database available through a JDBC Connection. For reference, it looks like this:

The script above creates the table in database in question and loads csv data from bucket in it. The imported data is very large and I need then to attach the usual index to the RDS database table.

How I can specify that the id from the mapping (or, alternatively, a combination of fields) would be an index? Could I do it using the Python Glue functions or is it necessary to connect to database after the job.commit() and additionally add the indexes?

0 投票
0 回答
234 浏览

aws-glue - 如何避免 AWS Glue DynamicFrame 在读取 CSV 时丢弃空列?

如果我有一个带有(简单情况)标题和一行数据的 CSV,其中一些值不存在(null),如下所示:

相对目录是这样的:

如果我尝试以这种方式(通过 Spark)通过目录读取数据:

我可以看到该列surname已消失,因为该特定列没有数据:

如何避免 Glue/AWS 删除该列以及通常任何空列?

0 投票
1 回答
768 浏览

python - 如何在使用 YAML(无服务器)部署具有胶水版本 1.0 的 AWS 胶水作业时选择 python 版本 3

如何在使用 YAML(无服务器)部署具有胶水版本 1.0 的 AWS 胶水作业时选择 python 版本 3?我正在使用无服务器 YAML 代码部署 AWS 胶水。AWS 提供了 GlueVersion 参数来选择要使用的胶水版本,我将其设置为“1.0”。我想使用 Python 3,但它正在粘合作业中部署到 python 2。有没有人知道如何使用 YAML 部署代码将其设置为使用 python3 而无需手动更改胶水作业?

0 投票
1 回答
88 浏览

amazon-web-services - AWS Glue 最大和转换行

我正在尝试将数据加载到使用来自源存储桶 S1 的 AWS 胶水创建的表中。

( session_id, Date, type, action )具有以下值的 4 列的源存储桶。购买交易持续了 1 分钟,我们得到了 2 条相同的记录。在某些情况下,我们没有得到结束记录

我有目标表,我想在其中插入这些记录。它具有以下结构。

我对 AWS 很陌生。我正在尝试 AWS 胶水,并希望将目标表/结果存储到 S3。

有人可以帮我详细说明如何实现这一点吗?

开始对我来说真的很棒

0 投票
0 回答
350 浏览

amazon-web-services - 如何将数据从 AWS Glue 写入 DocumentDB

我正在从事一个个人项目,该项目需要创建一个 AWS Glue 作业,该作业将执行一些基本转换并将其移动到 DocumentDB 数据库。

我现在遇到的主要问题是我无法将数据移动到 DocumentDB 数据库。

我的胶水作业代码如下:

这个项目仅用于学习目的,所以我不打算做一些主要的复杂 ETL。我只想从一个 S3 存储桶中获取数据,我已经用胶水爬虫抓取了这些数据,并删除了一些字段并将其移动到 DocumentDB。

我觉得为了将转换后的数据移动到 DocumentDB,我缺少一些基本的东西。但是,我无法弄清楚。我已经浏览了 Glue 和 DocumentDB 的文档,但我找不到我正在尝试做的事情的示例,或者我只是不理解给出的示例。

我已经做了将近 10 个小时了,所以如果有人能在这里帮助我,我将不胜感激。

0 投票
2 回答
431 浏览

amazon-web-services - 如何将输入参数传递给 AWS Glue Map.apply 函数

我正在从事一项 AWS Glue 工作,其中我有一个"some_function"想要在 DynamicFrame 上应用的函数dy_f,但我也想将输入参数传递给 some_function。

其中 some_function 的定义是:

到目前为止我已经尝试过: 作品:

什么是错误:

这将返回“TypeError:search() 缺少 1 个必需的位置参数:'record'”

如何将参数传递给 Map.apply 函数?我已经浏览了[这里]的文档,但在那里找不到我的解决方案。1