1

我正在尝试从 S3 对象中捕获数据。我正在使用如下 S3 Select 功能:

boto3 版本:1.7.59

import boto3

s3 = boto3.client('s3')
r = s3.select_object_content(
    Bucket="bucket",
    Key="file.json",
    ExpressionType='SQL',
    Expression="select * from s3object S3Object AS s",
    InputSerialization = {
                            'JSON': {
                            'Type': 'LINES'
                            }
                        },
    OutputSerialization = { 'JSON': { 'RecordDelimiter': ',' } },
)


for event in r['Payload']:
    if 'Records' in event:
        records = event['Records']['Payload'].decode('utf-8')
        print(records)
    elif 'Stats' in event:
        statsDetails = event['Stats']['Details']
        print("Stats details bytesScanned: ")
        print(statsDetails['BytesScanned'])
        print("Stats details bytesProcessed: ")
        print(statsDetails['BytesProcessed'])

运行我的代码后,我收到错误:

回溯(最后一次调用):文件“C:/Users/a_urrego/PycharmProjects/DW_FlightHub/S3Select.py”,第 48 行,OutputSerialization = { 'JSON': { 'RecordDelimiter': ',' } }, File " C:\Users\a_urrego\AppData\Local\Programs\Python\Python36-32\lib\site-packages\botocore\client.py”,第 314 行,在 _api_call 返回 self._make_api_call(operation_name, kwargs) 文件“C: \Users\a_urrego\AppData\Local\Programs\Python\Python36-32\lib\site-packages\botocore\client.py",第 612 行,在 _make_api_call 中引发 error_class(parsed_response, operation_name) botocore.exceptions.ClientError:错误调用 SelectObjectContent 操作时发生 (ParseUnexpectedToken):发现意外令牌 AS:如第 1 行第 33 列。

进程以退出代码 1 结束

4

1 回答 1

1

看起来您传递的 SQL 表达式无效:

"select * from s3object S3Object AS s"

一般的 SQL 语法将是

"SELECT <columns | *> FROM <table> <alias>"

但看起来你在那里复制了一个表名或其他东西。SQL 语句的大写是可选的,但我倾向于喜欢它。

我没有使用过boto3的这个功能,但这似乎是谷歌搜索3分钟并阅读错误消息后的问题。

[编辑]

在意识到错字后更新了我上面的模板。另外值得注意的是,在这个用例中不需要表别名,因为它是一个非常简单的 SELECT 语句。

于 2018-07-18T20:20:54.863 回答