问题标签 [snowflake-pipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
785 浏览

snowflake-cloud-data-platform - 如何在不丢失或复制任何记录的情况下移动或更改管道

这个关于管理管道的页面建议了一个将副本更改为管道中的语句的过程。

  1. 暂停管道(使用 ALTER PIPE … SET PIPE_EXECUTION_PAUSED=true)。
  2. 查询 SYSTEM$PIPE_STATUS 函数,验证管道执行状态为 PAUSED 且挂起文件计数为 0。
  3. 重新创建管道以更改定义中的 COPY 语句。选择以下任一选项: 删除管道(使用 DROP PIPE)并创建它(使用 CREATE PIPE)。重新创建管道(使用 CREATE OR REPLACE PIPE 语法)。在内部,管道被删除并创建。
  4. 再次查询 SYSTEM$PIPE_STATUS 函数并验证管道执行状态是否为 RUNNING。

但是,如果应该在暂停和重新创建管道之间加载文件,则此处没有步骤来刷新该间隙。即使这些步骤发生得很快,我们也有文件丢失的例子。

运行ALTER PIPE REFRESH虽然会导致重复,因为复制历史记录与管道相关联。重新创建的管道没有此历史记录,将返回并重新加载所有内容。

有没有一种很好的方法来编写这样的更改以保证没有间隙或重叠?比如获取原始管道暂停时的时间戳,然后在刷新查询中使用该时间戳?

更新:我们构建了一个完整的流程和脚本组合来处理我们的场景。完整脚本包含在下面的答案中。

0 投票
1 回答
995 浏览

snowflake-task - 雪花数据管道问题 - 特别是流问题

背景

我在我们的生产雪花数据库中实现了雪花数据管道(s3 日志文件 > SNS > 管道 > 阶段表 > 流 > 任务 > 存储 proc/UDF > 最终表)。

虽然我们的开发数据库中的工作规模较小,但考虑到试图流向它的数据量(6416006096 条记录和不断增长),生产管道似乎已经停止工作。

问题

经过到目前为止的一些调查,看起来 s3 log > SNS > pipe > stage table 没问题,但是我的事情被卡在了任务从流中检索记录的地方......流不是陈旧的。我花了很多时间阅读有关流的文档,但没有为我当前的问题找到任何帮助。

看起来流有太多数据要返回——当我尝试从流中获取限制为 10 的 count(*) 或 * 时,它在 8 分钟后没有返回(并且还在计数)......

即使我可以限制返回的数据,我也尝试过,一旦您从事务中的流中选择,即使您不想要所有更改(即使用 where 子句进行过滤),您也可能丢失所有更改...

问题

有没有办法让任何东西从流中返回而不重置它?

无论如何,是否可以在不丢失事务中所有更改的情况下对流中的结果进行分块?

流是否存在一些未记录的限制——我达到了吗?

忧虑

我不想关闭数据管道,这意味着我可能不得不从头开始,但我想如果我没有得到答案,我将不得不这样做(我也联系了支持,但还没有收到回复)。鉴于流和任务仍然只是预览版,我想这应该不足为奇,但有人告诉我,他们现在将是 Snowflake 的 GA。

0 投票
1 回答
386 浏览

database - 雪花传递动态值绑定和常量值

我必须将动态值作为我的列名从循环和常量值传递给我的表。我的代码片段如下所示: While(res.next()){ var columnname= res.getColumnValue(1); var stmt= insert into table1(column1,column2,column3) select column1,'Too Long',+列名+ from table2; \var 结果= \snowflake.createStatement(stmt); \执行语句

如果我传递常量值,则会将错误作为无效标识符。我们怎样才能做到这一点?

0 投票
1 回答
163 浏览

snowflake-task - SnowFlake-Kafka 连接器 -> 登陆表 -> 目标表。如何清理登陆表

我正在调查从 Kafka -> SnowFlake/Kafka 连接器 -> SnowFlake 获取数据。不幸的是,连接器似乎只使用了两列(并将整个 JSON 有效负载放在一列中)。所以我创建了一个流/任务来定期将数据从登陆表复制到目标表(使用插入)。一切都运行良好,除了一旦登陆目标表就删除登陆表中的数据。使用流,我知道什么已经登陆。如何删除其余数据?截断似乎要快得多。我是否只是定期运行删除这些条目的删除任务?我还担心执行这些删除的仓库时间。谢谢

0 投票
1 回答
210 浏览

amazon-web-services - Snowflake 与 Jumpcloud 集成引发 http 400 错误

我已启用 AWS 私有链接以访问雪花,并且链接没有问题,当使用 Jumpcloud 与 SSO 集成时,登录后它只会抛出 400 错误

对于Troubleshhot,我已经尝试过,但它们没有用

  1. https://support.snowflake.net/s/article/Error-400-Bad-Request-while-SSO-login-to-Snowflake
  2. https://community.snowflake.com/s/article/Configuring-your-IDP-to-Snowflake-by-providing-required-properties-in-a-SAML-Response

这是 JumpCloud SSO 设置

跳转云配置

这是完整的 SAML 响应,但仍然收到 400 错误任何来自雪花故障排除的想法将有助于解决此问题

0 投票
1 回答
206 浏览

snowflake-schema - How to load 533 columns of data into snowflake table?

We have a table with 533 columns with a lot of LOB columns that have to be moved to snowflake. Since our source transformation system having an issue to manage 533 columns in one job. We have split ted the columns into 2 jobs. The first job will insert 283 columns and the second job needs to update the remaining column.

We are using one copy command and upsert command respectively for these two jobs.

copy command

Upsert command

I would like to know if we have any other option ?

0 投票
1 回答
354 浏览

snowflake-cloud-data-platform - 更改数据捕获 (CDC) - 在 S3 暂存文件和雪花表之间定期同步数据集

例如:

来源:S3

预定更新:2次/天

目标:雪花桌

流媒体 :否

在第 0 天,我在 Snowflake DB 中创建并加载了一个客户表。S3 文件每天更新​​ 2 次,它们也需要反映在雪花表中。

我想提出一个解决方案,以便在没有流式传输或消息传递技术的情况下每天处理 2 次以下 3 个案例

  1. 插入 - 新记录
  2. 更新 - 现有记录
  3. 删除 - 现有记录
0 投票
2 回答
81 浏览

azure - 是否必须具有 md5-content 属性才能让雪管从 azure adls gen2 自动摄取文件?

我正在尝试通过雪管加载数据,但不知何故,所有文件都没有加载,这些文件来自不同的来源,包括自动化作业、手动上传、数据提取。我看到的一个共同点是 - 没有 md5 的文件不会自动摄取,而有的文件会自动摄取。所以想确认是否有人知道自动摄取文件需要md5?

谢谢

0 投票
1 回答
387 浏览

snowflake-schema - SnowSql 无响应

我正在使用 SnowSql 1.2.5,我没有收到任何响应,没有错误,绝对没有。我输入哪个命令都没有关系,即使只输入“SnowSql.exe”并点击确认,我也没有得到回应。

这发生在特定机器上,在其他具有相同 SnowSql 版本的机器上正常工作。

使用的操作系统:Microsoft Windows 10 Enterprise(64 位)版本(内部版本)1903 (10.0.18362)

0 投票
2 回答
488 浏览

python-3.x - 将 S3 中多个文件夹中的相同文件合并/加载到雪花中

需要有关如何将多个文件夹中可用的相同文件加载到雪花表中的帮助。是否有可能实现使用Snowflake Copy Command

说在一个桶中我有.. a.csv 的所有文件仅在当前日期示例下 2020/06/09 将进入a_table

2020 -- 是年份,然后是月份 06,然后是日期,即 09