问题标签 [aws-glue-spark]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

236 问题

0 投票

1 回答

1045 浏览

jdbc - 从 Spark 数据框中插入 SQL Server 表中的选定列

我有一个 SQL Server 表，其架构与我的数据框不同。我想从我的数据框中选择一些列并将我选择的值“插入”到表中。

基本上类似于下面的代码，但在 pyspark 中：

我可以使用 spark.read 使用 jdbc 读取数据。就像下面这样：

要将数据写入/附加到具有所选值的表中，我相信我仍然可以使用“df_s3.write”，但我需要一个关于如何使用“.option”函数或其他方法使用插入语句的示例，如果这不工作。

提前致谢。

2020-10-21T15:24:31.820

0 投票

0 回答

47 浏览

amazon-web-services - 如何使用 AWS Glue 处理多个表

作为进行数据验证的一部分，我有处理许多表的用例。表的数量几乎是 2000。由于严格的 SLA，现在需要同时处理许多表。由于 Glue 并发限制为 50（通过提出支持票我将其增加到 100。由于 100 是我的 AWS 区域的硬限制，因此它们无法进一步增加）。有没有更好的方法来处理我的数据？

amazon-web-services aws-glue data-lake aws-glue-spark

2020-11-03T01:53:26.843

0 投票

1 回答

96 浏览

python - Concat / Join / 将多列转换为一个结构列

我有一个非常大的遗留文件，大约有 5000 列和非常大量的记录。许多列被命名为等a_1,a_2,...,a_200。

我想将列数连接到结构中（以便以后更好地处理数据），所以改为：

我想要 struct a { 1: true, 2: false, ... 200: true }。

如何使用 Python 转换它，可能是 Panda 的？列总是具有相同的前缀，例如 a_、b_... 等。

问候

python python-3.x data-science etl aws-glue-spark

2020-11-06T12:41:56.623

0 投票

0 回答

304 浏览

partitioning - 分区如何与 AWS Glue 作业一起使用

如果我每小时运行一个胶水作业，但按天划分......预期的功能是什么？该作业是否会首先为当天创建一个分区，然后后续作业会附加到该分区？是否有任何文档清楚说明这将如何工作？

partitioning aws-glue aws-glue-spark

2020-11-19T02:54:17.633

0 投票

1 回答

318 浏览

amazon-web-services - How to add an index to an RDS database/table after AWS Glue script imports the data therein?

I have a typical AWS Glue-generated script that loads data from an S3 bucket to my Aurora database available through a JDBC Connection. For reference, it looks like this:

The script above creates the table in database in question and loads csv data from bucket in it. The imported data is very large and I need then to attach the usual index to the RDS database table.

How I can specify that the id from the mapping (or, alternatively, a combination of fields) would be an index? Could I do it using the Python Glue functions or is it necessary to connect to database after the job.commit() and additionally add the indexes?

amazon-web-services pyspark amazon-rds aws-glue aws-glue-spark

2020-11-20T15:51:43.180

0 投票

0 回答

234 浏览

aws-glue - 如何避免 AWS Glue DynamicFrame 在读取 CSV 时丢弃空列？

如果我有一个带有（简单情况）标题和一行数据的 CSV，其中一些值不存在（null），如下所示：

相对目录是这样的：

如果我尝试以这种方式（通过 Spark）通过目录读取数据：

我可以看到该列surname已消失，因为该特定列没有数据：

如何避免 Glue/AWS 删除该列以及通常任何空列？

aws-glue aws-glue-data-catalog aws-glue-spark

2020-11-20T20:46:12.100

0 投票

1 回答

768 浏览

python - 如何在使用 YAML（无服务器）部署具有胶水版本 1.0 的 AWS 胶水作业时选择 python 版本 3

如何在使用 YAML（无服务器）部署具有胶水版本 1.0 的 AWS 胶水作业时选择 python 版本 3？我正在使用无服务器 YAML 代码部署 AWS 胶水。AWS 提供了 GlueVersion 参数来选择要使用的胶水版本，我将其设置为“1.0”。我想使用 Python 3，但它正在粘合作业中部署到 python 2。有没有人知道如何使用 YAML 部署代码将其设置为使用 python3 而无需手动更改胶水作业？

python amazon-web-services aws-glue aws-glue-spark

2020-11-23T16:50:13.157

0 投票

1 回答

88 浏览

amazon-web-services - AWS Glue 最大和转换行

我正在尝试将数据加载到使用来自源存储桶 S1 的 AWS 胶水创建的表中。

( session_id, Date, type, action )具有以下值的 4 列的源存储桶。购买交易持续了 1 分钟，我们得到了 2 条相同的记录。在某些情况下，我们没有得到结束记录

我有目标表，我想在其中插入这些记录。它具有以下结构。

我对 AWS 很陌生。我正在尝试 AWS 胶水，并希望将目标表/结果存储到 S3。

有人可以帮我详细说明如何实现这一点吗？

开始对我来说真的很棒

amazon-web-services amazon-s3 aws-glue amazon-athena aws-glue-spark

2020-12-06T15:02:23.673

0 投票

0 回答

350 浏览

amazon-web-services - 如何将数据从 AWS Glue 写入 DocumentDB

我正在从事一个个人项目，该项目需要创建一个 AWS Glue 作业，该作业将执行一些基本转换并将其移动到 DocumentDB 数据库。

我现在遇到的主要问题是我无法将数据移动到 DocumentDB 数据库。

我的胶水作业代码如下：

这个项目仅用于学习目的，所以我不打算做一些主要的复杂 ETL。我只想从一个 S3 存储桶中获取数据，我已经用胶水爬虫抓取了这些数据，并删除了一些字段并将其移动到 DocumentDB。

我觉得为了将转换后的数据移动到 DocumentDB，我缺少一些基本的东西。但是，我无法弄清楚。我已经浏览了 Glue 和 DocumentDB 的文档，但我找不到我正在尝试做的事情的示例，或者我只是不理解给出的示例。

我已经做了将近 10 个小时了，所以如果有人能在这里帮助我，我将不胜感激。

amazon-web-services aws-glue aws-documentdb aws-glue-spark

2020-12-07T00:49:13.150

0 投票

2 回答

431 浏览

amazon-web-services - 如何将输入参数传递给 AWS Glue Map.apply 函数

我正在从事一项 AWS Glue 工作，其中我有一个"some_function"想要在 DynamicFrame 上应用的函数dy_f，但我也想将输入参数传递给 some_function。

其中 some_function 的定义是：

到目前为止我已经尝试过：作品：

什么是错误：

这将返回“TypeError：search() 缺少 1 个必需的位置参数：'record'”

如何将参数传递给 Map.apply 函数？我已经浏览了[这里]的文档，但在那里找不到我的解决方案。1

amazon-web-services pyspark aws-glue distributed-system aws-glue-spark

2020-12-11T16:30:45.350

1 2 3 4 5 6 7 8 9 10

问题标签 [aws-glue-spark]

Reference