问题标签 [aws-data-wrangler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

31 问题

0 投票

2 回答

1312 浏览

amazon-web-services - awswrangler 和 boto3 的区别？

我已经使用 boto3 通过 python 代码连接到 aws 服务。最近我遇到了awswrangler 库，它具有与boto3 类似的功能。两者有什么区别。你能用例子解释一下我们应该在哪种情况下使用哪一种吗？

2021-05-18T04:14:53.063

0 投票

0 回答

186 浏览

python - 为什么 s3.to_parquet 在发布到 AWS Glue 时切换数据类型？

我正在创建一个这样的数据框： concatdatafile = pd.concat(datafile, axis=0, ignore_index=True, sort=False)

然后在发布前检查一些字段数据类型：

我的下一条语句是写：

当我在 Glue 中运行此代码时，我得到：

（注意：我在运行之前清除了胶水定义，所以它会有新的元数据）

但在 Glue 表中，我看到字段类型更改如下：

问题：...为什么不尊重我发布的数据类型？它看到数据看起来像双打（目前），但这无关紧要。以后的数据将是字符串，所以我希望它不会覆盖我发送的类型。

python amazon-web-services aws-glue aws-glue-data-catalog aws-data-wrangler

2021-06-07T15:55:30.247

0 投票

1 回答

469 浏览

python - 使用 pyspark 将镶木地板文件（在 aws s3 中）存储到 spark 数据框中

我正在尝试从我的 s3 存储桶中的特定文件夹中读取数据。此数据采用镶木地板格式。为此，我正在使用awsrangler：

这将返回一个熊猫数据框：

但是，我想将从我的 s3 存储桶中检索到的数据存储在 spark 数据框中，而不是 pandas 数据框。我试过这样做（这是我自己的问题），但似乎不能正常工作。

我想知道是否有任何方法可以使用 awswrangler 将这些数据存储到 spark 数据框中。或者，如果您有其他选择，我想了解一下。

python amazon-s3 pyspark apache-spark-sql aws-data-wrangler

2021-06-09T17:01:54.763

0 投票

0 回答

110 浏览

python - AWS 上的 Numpy 兼容性问题

我需要在一个 AWS Lambda 中使用AWS Data Wrangler 、NumPy 和 SciPy。

为了使它成为可能，我使用了两个图层：

AWS 提供的层：AWSLambda-Python38-SciPy1x- 适用于 Python38 的 AWS Lambda SciPy 层（scipy-1.5.1，numpy-1.19.0）
从awsrangler-layer-2.9.0-py3.8.zip创建的自定义层

我的 AWS Lambda 函数如下所示：

我收到的错误是：

我有办法让它工作吗？

python amazon-web-services numpy aws-lambda aws-data-wrangler

2021-06-21T14:36:51.793

0 投票

1 回答

331 浏览

amazon-web-services - AWS Glue - 即使没有架构更改，表版本也会随着数据加载而增加

我有一个 lambda 作业，它不经常使用 AWS Wrangler 将 parquet 文件转储到 S3 存储桶/Glue 表中。
每次有新数据时，这个 Glue 表似乎都在增加表版本号，即使架构没有改变。

我认为问题不在于 lambda 作业/牧马人，因为它按预期存放了镶木地板文件。我还单独测试了该代码，它按预期工作。
尽管没有更改架构，但 Glue 数据目录表发生了一些事情，这使得它增加了版本。

我检查了底层 parquet 文件中的差异，以查看更新之间是否有一些架构、数据类型等更改，但没有。我已经通过控制台和 AWS CLI (aws glue get-table-versions) 检查了 Glue 表版本之间的差异，但也没有发现任何差异（只有 UpdateTime 和 VersionId 发生了变化）。

我试图用相同的代码重新创建我的设置，但没有发现这个问题。我试图在同一个地方删除并重新创建 Glue 表，但问题再次出现。

问题：什么可能导致我的 Glue 表版本号在没有架构更改时增加？

注意：有问题的代码如下所示。它是一个更大函数的一部分（这实际上只是生成主要 lambda 函数正在做什么的日志）。它本身可以正常工作，并且不使用其余代码中的变量等。我不明白这怎么可能是问题，但无论如何都包括在这里。

amazon-web-services amazon-s3 aws-lambda aws-glue aws-data-wrangler

2021-07-27T10:00:11.693

0 投票

1 回答

33 浏览

pandas - Visual Studio doesn't show help pop up with DataFrame from awswrangler

I am using VS Code with Microsoft Python extension. If I create a Pandas dataframe and write the name of the variable VS Code popups all kinds of help text. However, if I have a variable made using wr.athena.read_sql_query, I don't get any help text even if the variable is a Pandas dataframe.

Is there a way to make VS Code realize that df2 in the example is a Pandas DataFrame and get the help text?

pandas visual-studio-code intellisense pylance aws-data-wrangler

2021-08-25T13:01:10.680

0 投票

1 回答

55 浏览