问题标签 [snowflake-pipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
34 浏览

python - PySpark Streaming,写入时产生错误

我目前有一个从 S3 存储桶获取数据并生成数据框的脚本。我想将数据帧发送到雪花。目前我正在这样做

产生的错误是

我的想法是这可能是不匹配的版本错误。目前我正在使用 hadoop-aws-2.7.3.jar、spark-snowflake_2.12-2.8.1-spark_3.0.jar、snowflake-jdbc-3.12.8.jar

0 投票
1 回答
1586 浏览

snowflake-cloud-data-platform - 如何从 Mysql 数据库中获取数据到 Snowflake

有什么聪明的方法可以将我的数据从 mysql 数据库中获取到雪花中吗?到目前为止,我发现了两种可能的方法:

选项 1:将 Snowpipe 放在 mysql 数据库之上,管道会自动转换数据。选项 2:我手动将表转换为 csv 并将它们存储在本地,然后通过 staging 将它们加载到雪花中。

对我来说,首先将每个表转换为 csv 似乎很奇怪。我可以不只是将 sql 转储文件推送到雪花吗?我还可以在雪花中安排一些重新加载任务,所以选项 1 或 2 会自动触发吗?

最好的 NicBeC24

0 投票
1 回答
346 浏览

snowflake-cloud-data-platform - 雪花警报长时间运行的查询

  1. 如何向雪花中的多个用户提醒长时间运行的查询?现在警报仅发送给帐户管理员角色用户。

    有没有办法将长查询警报通知“运行查询的用户或通知多个用户属于特定仓库/数据库”?

  2. 有没有办法利用雪花通知集成来处理上述警报?

提前致谢

桑达尔

0 投票
1 回答
175 浏览

spring-cloud-dataflow - 使用雪花 JDBC 驱动程序自定义接收器到雪花非常慢

我正在使用 Spring Cloud Data Flow 创建自定义流以将数据加载到雪花中。我编写了一个自定义接收器,以使用 Snowflake 的 JDBC 驱动程序将数据加载到 Snowflake 中。我使用的方法类似于使用以下步骤的任何数据库更新:

  1. 创建连接池(使用 HikariCP)获取 Snowflake 数据库连接。
  2. 使用准备好的语句,创建了一批行以一次全部提交。
  3. 使用预定的计时器将批次提交给雪花。
    这是当我注意到批次在 Snowflake 中的更新非常缓慢 - 即一次一个或两个记录,并且一批 8K 行在 Snowflake 表中花费了超过 45 分钟的时间来更新(使用 XS 仓库)。

我的问题:是否有更好/另一种/推荐的方法将数据流式传输到雪花中?我知道 Kafka 连接到 Snowflake 和 Snowpipes(它们使用内部/外部阶段),但这些不是我们想要追求的选项。

谢谢!

0 投票
1 回答
55 浏览

snowflake-cloud-data-platform - Snowflake- MERGE t1 into t2 后,如何确保下次运行 MERGE 时,t1 中的旧记录不会再次合并?

我正在尝试将 t1 中的数据从我的 S3 雪管合并到 t2 中。与 t2 合并后,如何处理 t1 中的数据?我是删除 t1 中的数据还是有一些元数据作业跟踪器来确保相同的数据不会被合并多次?

0 投票
1 回答
159 浏览

python-3.x - 如何使用 python 脚本提取雪花表模式和存储过程?

我是 python 的中级和雪花的初学者。

在这里,我可以连接雪花并获取表数据。

但主要问题是使用 python 脚本从雪花中提取表模式和存储过程。

提前致谢。

0 投票
1 回答
436 浏览

copy - Snowflake - COPY INTO 失败(无法将 '0' 解析为格式为 'YYYYMMDD' 的日期)

每次将镶木地板文件加载到 AWS S3 中的暂存位置时,我的管道都会执行 COPY INTO 命令,这工作得很好(执行)。

这是我的副本查询:(总结)

因此,我将$1:int_field (type:int)转换为 VARCHAR (::varchar),然后将此 varchar 解析为'YYYYMMDD' 格式的 DATE。这对于符合这种格式的int_field来说效果很好,但是当字段为0时,加载失败(仅当被管道执行时)

当管道自行执行 COPY COMMAND 时,我检查了 COPY_HISTORY 并收到以下错误:

当然,加载失败了……加载 失败

这是事情变得有趣的时候:当我自己在工作表中执行这个相同的复制命令时,加载很顺利: OK LOAD

我试过了:

  • VALIDATE, VALIDATION_MODE, VALIDATE_PIPE_LOAD,但是这个函数不支持在加载期间转换数据的 COPY INTO 语句,就像我的一样。
  • FILE_FORMAT= (FORMAT_NAME=c000 DATE_FORMAT='YYYYMMDD') ON_ERROR = "SKIP_FILE_1%">>> SAME ISSUE,只有当我用自己的手执行 COPY COMMAND 时才会加载文件。
  • 我认为问题是“ON_ERROR”选项,但我无法删除它(我认为),我需要过滤真正的错误:(

也许是一些会话问题左右,我阅读了关于 DATE_INPUT_FORMAT 的 smthg,但我无法检测到解决这个问题的确切问题。

有人能帮我吗?谢谢!

0 投票
1 回答
86 浏览

snowflake-cloud-data-platform - 清除或截断 information_schema.copy_history 表:雪花

如何从information_schema.copy_history中清除表内容

历史值,以便我可以重复使用相同的值进行复制...强文本

0 投票
2 回答
810 浏览

airflow - Snowpipe vs Airflow 继续将数据加载到雪花中

我有一个与雪花有关的问题。实际上,在我目前的角色中,我计划将数据从 ADLS(Azure 数据湖)迁移到 Snowflake。我现在正在寻找 2 个选项

  1. 创建 Snowpipe 以加载更新的数据
  2. 为相同创建气流作业。

我仍在尝试了解哪种方法是最好的方法,以及选择每种方法的优缺点是什么。

0 投票
1 回答
441 浏览

snowflake-cloud-data-platform - 非所有者角色访问雪花内部阶段

我将数据放入内部表阶段,然后使用复制命令加载到实际表中。因为我是表所有者(我的角色),所以我的 ID 可以正常工作。

现在,我正在尝试使用对表具有读写访问权限的其他用户来运行此过程。我收到以下错误:在表阶段“stagename”上操作的权限不足。

有没有办法为内部表阶段授予对其他角色的 PUT 访问权限? 我看到这对于 Names Stage 是可能的,但我没有看到 Internal Table Stage 的任何文档。