问题标签 [amazon-s3-select]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
225 浏览

python - 如何将 S3 Select 用于嵌套 Parquet 对象

我已将数据转储到镶木地板文件中。当我使用

SELECT * FROM s3object s LIMIT 1

它给了我以下结果。

我想过滤 company.name = "ABC" 的结果,所以输出应该如下所示。

或这个

非常感谢任何支持。谢谢。

0 投票
1 回答
479 浏览

python - 在 AWS S3 SelectObjectContent 的 S3 中获取 maxCharsPerRecord:1,048,576

我正在使用 s3 select 从 s3 JSON 文件中获取记录。当我从小 JSON 文件(即 2MB)(记录数约为 10000)中获取数据时,一切都对我有用

以下是我的查询

但是当我尝试从大型 JSON 文件(即 100 MB 超过 578496 条记录)中查询一些记录时。我收到以下错误。我尝试更改我的查询以从大型 JSON 文件中仅获取一条记录,这对我也不起作用。S3 Select 是否有任何扫描字符限制?

文件“./app/main.py”,第 118 行,retrieve_from_cache_json OutputSerialization={'JSON': { 文件“/usr/local/lib/python3.7/site-packages/botocore/client.py”,第 357 行,在 _api_call 中返回 self._make_api_call(operation_name, kwargs) 文件“/usr/local/lib/python3.7/site-packages/botocore/client.py”,第 676 行,在 _make_api_call 中引发 error_class(parsed_response, operation_name) botocore。 exceptions.ClientError:调用SelectObjectContent操作时发生错误(OverMaxRecordSize):一条记录​​中的字符数超过我们的最大阈值,maxCharsPerRecord:1,048,576

示例 JSON 文件

0 投票
0 回答
303 浏览

hive - S3 选择与 Presto

我正在尝试使用 hive 连接器和 Minio 对象存储从 Presto 中选择 S3。我能够创建一个外部表并运行所有 SQL 查询。但是,S3 Select 似乎无法正常工作,即使使用hive.s3select-pushdown.enabled=true目录文件夹中属性文件中的设置也是如此。我在 Minio 服务器上运行了数据包跟踪,我只看到了 GET/LIST 调用,没有看到任何调用POST /{Key+}?select&select-type=2 HTTP/1.1

下面是配置单元属性文件。

我看到从 presto 的 SESSION 参数中设置了相同的设置。

这就是我从 presto cli 创建外部表的方式。

正在运行的查询

要使 S3 Select 正常工作,还需要做些什么吗?

0 投票
1 回答
132 浏览

python-3.x - ClientError:调用 SelectObjectContent 操作时发生错误(InvalidTextEncoding):需要 UTF-8 编码。读取 gzip 文件

我的代码中出现上述错误。encoding=latin-1需要作为参数包含在 select-object-content 的某处。由于我是新手,我不确定在哪里添加它。

任何人都可以帮助我吗?

代码:

追溯:

0 投票
1 回答
45 浏览

arrays - AWS S3 - 在嵌套 JSON 文件中搜索特定文本

这是在 Amazon S3 中存储为 JSON 文件的数据模型的格式。有很多书有很多章节和文字内容。要求是在所有书籍中搜索特定文本,并列出找到该文本的行、章、书籍和版本。如何对嵌套数组 JSON 文件进行 S3 查询?

0 投票
0 回答
17 浏览

amazon-web-services - 尽管 FileHeaderInfo=NONE,S3 Select(python)在使用 WHERE 子句时不返回标头

当我提交此查询时: SELECT * FROM s3object输入FileHeaderInfo序列化设置为 时NONE,我得到预期的记录及其标头。

只要我添加这样的 where 子句:

然后不再返回标头。

0 投票
1 回答
59 浏览

sql - 编写 S3 Select 查询以排除回车(\r)行

我有一个 csv 列,其中包含带有 \r 字符的数据。如何编写查询以消除此类数据

这给了我:

在此处输入图像描述

我不想要这样的行。想要全部消除。

此查询仍然返回相同的结果

0 投票
0 回答
41 浏览

amazon-web-services - 使用 s3 select 我需要查询 JSON 文件。需要一些示例代码片段

使用 s3 select 我需要查询 JSON 文件。需要一些使用 boto3 的示例代码片段

在此先感谢桑达