python - Snowflake 中的异步查询执行：取消 SQL 执行

Question

我正在使用雪花数据库即服务来存储和处理我们的数据。由于要处理大量数据，我想运行一个查询，获取查询 ID 并让它异步执行查询。系统的另一部分将通过使用该查询 ID 检查查询历史表来监视查询的状态。

我正在使用雪花 Python 连接器。

这是我到目前为止的示例：

from __future__ import print_function
import io, os, sys, time, datetime
modules_path = os.path.join(os.path.dirname(__file__), 'modules')
sys.path.append(modules_path)

import snowflake.connector

def async_query(data):
    connection = snowflake.connector.connect(
        user=data['user'],
        password=data['password'],
        account=data['account'],
        region=data['region'],
        database=data['database'],
        warehouse=data['warehouse'],
        schema=data['schema']
    )

    cursor = connection.cursor()
    cursor.execute(data['query'], _no_results=True)
    print(cursor.sfqid)

    return cursor.sfqid

这段代码似乎可以工作，即我正在获取查询 ID，但有一个问题 - SQL 查询失败并出现错误“SQL 执行已取消”。在雪花。如果我删除_no_results=True参数，则查询运行良好，但是我必须等待它完成，这不是所需的行为。

任何想法是什么导致“SQL 执行取消”失败？

更多信息：我不想等待它的原因是我在 AWS Lambda 上运行代码，而 Lambda 的最长运行时间为 5 分钟。

score 2 · Accepted Answer

如果未指定 _no_results=True，则执行是同步的，因此应用程序必须等待查询完成。如果指定，则查询变为异步，因此应用程序将继续运行，但连接的析构函数最终将关闭会话，所有活动查询将被取消。这似乎是“取消 SQL 执行”的原因。

AWS lambda 将执行时间限制为 5 分钟，因此如果查询时间超过限制，它将不起作用。

Btw _no_results=True 是用于 SnowSQL 的内部参数，其行为可能会在未来发生变化。

python - Snowflake 中的异步查询执行：取消 SQL 执行

1 回答 1

Related

Reference