背景
我在我们的生产雪花数据库中实现了雪花数据管道(s3 日志文件 > SNS > 管道 > 阶段表 > 流 > 任务 > 存储 proc/UDF > 最终表)。
虽然我们的开发数据库中的工作规模较小,但考虑到试图流向它的数据量(6416006096 条记录和不断增长),生产管道似乎已经停止工作。
问题
经过到目前为止的一些调查,看起来 s3 log > SNS > pipe > stage table 没问题,但是我的事情被卡在了任务从流中检索记录的地方......流不是陈旧的。我花了很多时间阅读有关流的文档,但没有为我当前的问题找到任何帮助。
看起来流有太多数据要返回——当我尝试从流中获取限制为 10 的 count(*) 或 * 时,它在 8 分钟后没有返回(并且还在计数)......
即使我可以限制返回的数据,我也尝试过,一旦您从事务中的流中选择,即使您不想要所有更改(即使用 where 子句进行过滤),您也可能丢失所有更改...
问题
有没有办法让任何东西从流中返回而不重置它?
无论如何,是否可以在不丢失事务中所有更改的情况下对流中的结果进行分块?
流是否存在一些未记录的限制——我达到了吗?
忧虑
我不想关闭数据管道,这意味着我可能不得不从头开始,但我想如果我没有得到答案,我将不得不这样做(我也联系了支持,但还没有收到回复)。鉴于流和任务仍然只是预览版,我想这应该不足为奇,但有人告诉我,他们现在将是 Snowflake 的 GA。