问题标签 [snowflake-cloud-data-platform]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 如何将 SnowFlake S3 数据文件导出到我的 AWS S3?
Snowflake S3 数据在 .txt.bz2 中,我需要将此 SnowFlake S3 中存在的数据文件导出到我的 AWS S3,导出的结果必须与源位置中的格式相同。这是我试过的。
COPY INTO @mystage/folder from
(select $1||'|'||$2||'|'|| $3||'|'|| $4||'|'|| $5||'|'||$6||'|'|| $7||'|'|| $8||'|'|| $9||'|'|| $10||'|'|| $11||'|'|| $12||'|'|| $13||'|'|| $14||'|'||$15||'|'|| $16||'|'|| $17||'|'||$18||'|'||$19||'|'|| $20||'|'|| $21||'|'|| $22||'|'|| $23||'|'|| $24||'|'|| $25||'|'||26||'|'|| $27||'|'|| $28||'|'|| $29||'|'|| $30||'|'|| $31||'|'|| $32||'|'|| $33||'|'|| $34||'|'|| $35||'|'|| $36||'|'|| $37||'|'|| $38||'|'|| $39||'|'|| $40||'|'|| $41||'|'|| $42||'|'|| $43
from @databasename)
CREDENTIALS = (AWS_KEY_ID = '*****' AWS_SECRET_KEY = '*****' )
file_format=(TYPE='CSV' COMPRESSION='BZ2');
PATTERN='*/*.txt.bz2
python - 将一个大的 json 文件拆分为多个较小的文件
我有一个大的 JSON 文件,大约 500 万条记录和大约 32GB 的文件大小,我需要将其加载到我们的雪花数据仓库中。我需要把这个文件分成每个文件大约 200k 条记录(大约 1.25GB)的块。我想在 Node.JS 或 Python 中执行此操作以部署到 AWS Lambda 函数,不幸的是我还没有编写任何代码。我有 C# 和大量 SQL 经验,并且学习 node 和 python 都在我的待办事项清单上,所以为什么不直接潜入,对吧!?
我的第一个问题是“哪种语言更适合这个功能?Python 还是 Node.JS?”
我知道我不想将整个 JSON 文件读入内存(甚至输出较小的文件)。我需要能够根据记录数(200k)将其“流式传输”到新文件中,正确关闭 json 对象,并继续进入另一个 200k 的新文件,依此类推。我知道 Node 可以做到这一点,但如果 Python 也可以做到这一点,我觉得快速开始使用其他 ETL 东西会更容易,我很快就会做。
我的第二个问题是“根据您上面的建议,您能否推荐我应该需要/导入哪些模块来帮助我开始?主要是因为它与不将整个 json 文件拉入内存有关?也许是一些提示、技巧或'你会怎么做?如果你真的很慷慨,一些代码示例可以帮助我深入了解这个?
我不能包含 JSON 数据的样本,因为它包含个人信息。但我可以提供 JSON 模式......
sql - 如何减去特定条件为真的产品数量
我想减去首先访问'OF'然后访问'OP'的访问次数visitorId
(但它应该在不同的日期)并且还想将上述结果分组为
等等
r - 通过单点登录将数据从 Snowflake 导入 R
我可以将数据直接从雪花数据库导入 R 吗?我可以通过使用我的 Snowflake 凭据创建 ODBC 连接来做到这一点;但是,我的公司将 Snowflake 切换为单点登录,我无法让它工作。
jdbc - 如何在 Snowflake JDBC 中执行批量更新
我正在尝试对 PreparedStatement 执行雪花批量更新,但没有成功。我能够执行每个单独的查询(preparedStatement.executeQuery()),以便查询工作。但是一旦我切换到batchUpdate(),我就会得到一个似乎没有设置我的变量的异常(在insertEventStatement.executeBatch() 中抛出)。
有人看到我可能会错过什么吗?
以下是查询:
编辑:显然,它在我使用的 JDBC 版本(3.0.18)中不可用,但在最近的版本(3.0.21)中添加。如果它不起作用,我会进一步更新。
r - src_snowflakedb() 的问题:“src_sql”不是导出的对象
我正在尝试使用包(在 GitHub 上)dplyr
与雪花数据库一起使用。dplyr.snowflakedb
我能够安装和加载库,然后将类路径设置为指向最新的 JDBC 驱动程序 ( snowflake-jdbc-3.0.9.jar
)。
尝试使用 设置连接对象时src_snowflakedb()
,我收到以下错误消息(我删除了帐户详细信息,但它们在实际代码中是正确的):
事实上,当前版本的 dplyr 既不导出也不包含任何src_sql()
功能:
有没有什么办法解决这一问题?
mysql - 雪花查询无法在别名中显示下划线
所以我在写一个雪花查询
在结果表中,别名“col_2”以“col 2”出现,即没有下划线。我知道这些问题很愚蠢,但我糟糕的谷歌搜索技能并没有带来丰硕的成果。
sql - 替换雪花中的视图
我创建了一个视图(比如说“ViewA”),我想替换它,我们有什么支持语法?我浏览了文档,可能还不够彻底,但一无所获。
我得到了这个:https ://docs.snowflake.net/manuals/sql-reference/sql/create-view.html#syntax
但这没什么帮助。
这些是我正在使用的命令:
python - JDBC 对列表的限制
我正在尝试编写一个数据迁移脚本,使用 JDBC 游标将数据从一个数据库移动到另一个数据库(Teradata 到雪花)。
我正在处理的表有大约 1.7 亿条记录,我遇到了一个问题,当我执行批量插入时,列表中的最大表达式数超出,预计最多 16,384,得到 170,000,000。
我想知道是否有任何解决方法,或者是否有更好的方法来批量迁移记录,而无需将记录导出到文件并将其移动到 s3 以供雪花使用。
amazon-web-services - AWS Redshift 与 Snowflake 使用案例
我想知道是否有人同时使用过 AWS Redshift 和 Snowflake 以及其中一个更好的用例。我使用过 Redshift,但最近有人建议 Snowflake 作为一个不错的选择。我的用例基本上是零售营销数据,这些数据将被少数不太精通 SQL 并且很可能拥有报告工具的分析师使用