问题标签 [amazon-redshift-spectrum]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4010 浏览

amazon-web-services - 使用 Redshift Spectrum 的步骤是什么?

目前我正在使用 Amazon Redshift 和 Amazon S3 来存储数据。现在我想使用 Spectrum 来提高性能,但对如何正确使用它感到困惑。

如果我使用的是 SQL 工作台,我可以从同一个架构创建外部架构,还是需要从 AWS 控制台或 Athena 创建它。?

我是否需要在特定地区拥有 Athena。没有雅典娜可以使用频谱吗?

现在,如果我尝试通过 SQL 工作台创建外部模式,则会引发错误“未启用创建外部模式”如何启用此功能..?

如果有人使用过 Spectrum,请提供帮助,并让我知道使用 Spectrum 的详细步骤。

0 投票
1 回答
4011 浏览

amazon-web-services - AWS Redshift Spectrum - how to get the s3 filenames in the external table

I have external tables created in AWS spectrum to query the s3 data however i am not able to identify the filenames which the record belongs to(i have thousands of files under a bucket)

In AWS Athena we have a pseudo column "$PATH" which will display the s3 filenames is there any similar ways available while using spectrum?

0 投票
2 回答
7313 浏览

amazon-web-services - 将数据加载到 Amazon Redshift Spectrum 时删除双引号

我想将数据加载到亚马逊红移外部表。数据为 CSV 格式并带有引号。我们是否有类似 REMOVEQUOTES 之类的东西,我们在 redshift 外部表的复制命令中拥有它。还有什么是在外部表中加载固定长度数据的不同选项。

0 投票
4 回答
4003 浏览

amazon-web-services - Redshift Spectrum 的性能问题

我正在使用 Redhshift 频谱。我创建了一个外部表并在 S3 上上传了一个包含大约 550 万条记录的 csv 数据文件。如果在这个外部表上触发查询,大约需要 15 秒,而如果我在 Amazon redshift 上运行相同的查询,我会在大约 2 秒内得到相同的结果。在 AWS 声称它是非常高性能的平台的情况下,这种性能滞后的原因可能是什么。请建议使用频谱获得相同性能的解决方案。

0 投票
2 回答
2126 浏览

amazon-redshift - 如何将镶木地板格式的特定列加载到 Redshift 光谱中?

我正在尝试将特定列加载到 Redshift Spectrum 中,但似乎数据是按位置加载的,这意味着我为列名输入的内容并不重要。

为了更具体:

假设我要加载的数据按位置存储在镶木地板中作为 A、B、C 列。我只想要 B 列,所以我写:

不幸的是,当我这样做时,它实际上将 A 的数据加载到 Foo.B

我需要一些额外的语法吗?我搜索了文档,但找不到任何东西。

谢谢!

0 投票
2 回答
5377 浏览

amazon-web-services - 跳过 AWS Redshift 外部表中的标题行

我在 S3 中有一个文件,其中包含以下数据:

还有一个红移外部表,用于使用频谱查询该数据:

查询数据时,我得到以下结果:

作为外部表定义的一部分,是否有一种优雅的方法可以跳过标题行,类似于tblproperties ("skip.header.line.count"="1")Hive 中的选项?或者是我唯一的选择(至少现在)作为选择语句的一部分过滤掉标题行?

0 投票
2 回答
1800 浏览

amazon-s3 - Redshift Spectrum / 您尝试访问的存储桶必须使用指定的端点进行寻址

我在 S3 中创建了一个 parquet 文件,并在 Redshift / Spectrum 中创建了一个指向它的外部表。我的 S3 存储桶和 Redshift 集群都在 us-west-2 中。我在创建架构时指定了选项区域。

查询在 Athena 中运行顺畅。

然而,当我从 Redshift 客户端运行时,我得到了这个错误:

Amazon 无效操作:S3 查询异常 (Fetch)

细节:

错误:S3 查询异常(获取)代码:15001 上下文:由于内部错误,任务失败。HTTP 响应错误代码:301 消息:PermanentRedirect 您尝试访问的存储桶必须使用指定的端点进行寻址。>请将所有未来的请求发送到此端点。x-amz-request-id:XXXX 查询:XXXXX 位置:dory_util.cpp:689 进程:query0_40 [pid=XXX] ------------------------ ----------------------;

0 投票
2 回答
833 浏览

amazon-cloudformation - 将 Redshift Spectrum 与 Cloud Formation 结合使用

我想使用 Cloud Formation 模板配置RedShift Spectrum资源。这样做的 CF 模板参数是什么?

例如,一个普通的 RedShift 可以像这样被模板化

什么是频谱当量?

0 投票
0 回答
1065 浏览

amazon-web-services - Amazon Redshift Spectrum:内存不足错误

我正在尝试使用 Amazon Redshift Spectrum 查询 S3 上的一些数据。我已经为 Parquet 中存储的数据创建了一个外部表(大约 5 GB 的数据)。

每次我尝试运行一个像下面这样的简单查询时,我都会收到错误消息:Out Of Memory

难道我做错了什么?我正在运行一个带有 2 个 dc1.large 类型节点的 Redshift 集群(每个节点 15 GiB 的内存!)

0 投票
1 回答
797 浏览

perl - 从 AWS 集群外的 Linux 服务器对 Redshift 数据库执行 COPY 命令

我想使用“COPY”命令将数据从亚马逊 S3 加载到 Redshift 数据库中。但我想从 AWS 集群外部的 Linux 机器中的 shell/perl 脚本执行它。我想知道是否有任何 Redshift 客户端可以安装在Linux机器上来帮我实现这个类似于SnowFlake的SnowSQL客户端吗?