问题标签 [amazon-redshift-spectrum]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
62 浏览

amazon-web-services - 星型模式模型的红移数据分布?

我有 20 亿行和 19 个维度的大事实表(产品维度是 4.5 亿大,另外两个维度是 1 亿,其余小维度表)

有人可以帮我解决这种情况的数据分布吗?

0 投票
0 回答
165 浏览

amazon-redshift - 如何为 Redshift Spectrum 指定行分隔符

我正在尝试将具有 CRLF 作为行终止符的 csv 文件挂载到 Redshift Spectrum 中。但是,似乎我只能将单个字符指定为行终止符。有谁知道如何解决这个问题?

0 投票
1 回答
7321 浏览

amazon-web-services - 使用胶水数据目录中定义的外部表红移光谱

我在 Glue 数据目录中定义了一个表,我可以使用 Athena 进行查询。由于表中有一些数据我想与其他 Redshift 表一起使用,我可以访问 Glue 数据目录中定义的表吗?

什么是创建外部表查询以引用 Glue 目录中的表定义?

0 投票
2 回答
952 浏览

amazon-s3 - us-west-1 中的 Spectrum 和 us-west-2 中的 Glue 是否可能?

我在us-west-1(NCAL)中使用 Redshift 集群

s3 文件位置在us-west-1(NCAL) 胶水数据目录在us-west-2 (Oregon)

当我尝试查询表格时

我收到以下错误。

表定义确实是在 Glue 目录中创建的,我还可以看到它是在 Redshift 的 svv_external_tables 中定义的。只是我无法查询它。

如何解决这个问题?任何人都可以帮忙吗?

谢谢和问候, 库纳尔·戈什

0 投票
1 回答
2785 浏览

amazon-web-services - 无法连接到 aws redshift

我在 aws 控制台中创建了一个红移。我去创建集群,并根据我在控制台中获得的信息在 SQL Workbench/J 中使用它们。要设置 sql workbench/JI,请使用以下内容:

https://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

所以这是我的设置:

在此处输入图像描述

现在,当我尝试连接到它时,我得到以下信息:

在此处输入图像描述

知道如何解决它或发生了什么吗?

更新

我还提供了 VPC 的入站安全组,我的 redshift 可以完全访问我正在连接的 IP 地址和同样的问题

这里还有完整的日志:

0 投票
1 回答
1359 浏览

amazon-redshift - 如何将 CDC 加载到 Redshift 数据库中?

谁能告诉我使用 SQL 的 Redshift 中的 CDC /增量加载方法?

我知道一种方法 upsert 但除此之外还有另一种方法可以执行,例如插入然后删除等。

0 投票
1 回答
3472 浏览

amazon-web-services - 如何为红移光谱中的嵌套 Parquet 类型创建外部表

我知道红移和红移频谱不支持嵌套类型,但我想知道有什么技巧可以绕过该限制并使用 Redshift Spectrum 在 S3 中查询嵌套数据?在这篇文章中,这个人展示了我们如何为 JSON 文件做到这一点,但 Parquet 就不一样了。我们还有其他可以应用于 Parquet 文件的技巧吗?

实际的 Schema 是这样的:(由 AWS-Glue 爬虫提取)

0 投票
2 回答
4927 浏览

apache-spark - 使用 spark-redshift 插入 Redshift

我正在尝试从 S3(镶木地板文件)插入 Redshift 数据。通过 SQLWorkbench 完成 600 万行需要 46 秒。但是通过连接器 spark-redshift 完成它大约需要 7 分钟。

我正在尝试使用更多节点并获得相同的结果。

有什么建议可以提高使用 spark-redshift 的时间吗?

Spark中的代码:

SQLWorkbench (Redshift SQL) 中的代码:

0 投票
5 回答
9449 浏览

amazon-redshift - 以 Parquet 格式将数据文件从 Amazon Redshift 卸载到 Amazon S3

我想以 Apache Parquet 格式将数据文件从 Amazon Redshift 卸载到 Amazon S3,以便使用 Redshift Spectrum 查询 S3 上的文件。我已经探索了每一个地方,但我找不到任何关于如何使用 Parquet 格式将文件从 Amazon Redshift 卸载到 S3 的信息。是否尚不支持此功能,或者我无法找到任何有关它的文档。有工作过的人可以分享一些关于这方面的信息吗?谢谢你。

0 投票
1 回答
1195 浏览

amazon-web-services - 我可以使用 Athena 而不使用 Amazon EMR 将 Amazon S3 上的 CSV 文件转换为 Parquet 格式吗

我想使用 Amazon Athena 将现在位于 Amazon S3 上的 csv 数据文件转换为 Parquet 格式,并将它们推回 Amazon S3,而不需要 Amazon EMR 的任何帮助。这有可能做到吗?有没有人经历过类似的事情?