问题标签 [amazon-redshift-spectrum]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 使用 Redshift Spectrum 的步骤是什么?
目前我正在使用 Amazon Redshift 和 Amazon S3 来存储数据。现在我想使用 Spectrum 来提高性能,但对如何正确使用它感到困惑。
如果我使用的是 SQL 工作台,我可以从同一个架构创建外部架构,还是需要从 AWS 控制台或 Athena 创建它。?
我是否需要在特定地区拥有 Athena。没有雅典娜可以使用频谱吗?
现在,如果我尝试通过 SQL 工作台创建外部模式,则会引发错误“未启用创建外部模式”如何启用此功能..?
如果有人使用过 Spectrum,请提供帮助,并让我知道使用 Spectrum 的详细步骤。
amazon-web-services - AWS Redshift Spectrum - how to get the s3 filenames in the external table
I have external tables created in AWS spectrum to query the s3 data however i am not able to identify the filenames which the record belongs to(i have thousands of files under a bucket)
In AWS Athena we have a pseudo column "$PATH" which will display the s3 filenames is there any similar ways available while using spectrum?
amazon-web-services - 将数据加载到 Amazon Redshift Spectrum 时删除双引号
我想将数据加载到亚马逊红移外部表。数据为 CSV 格式并带有引号。我们是否有类似 REMOVEQUOTES 之类的东西,我们在 redshift 外部表的复制命令中拥有它。还有什么是在外部表中加载固定长度数据的不同选项。
amazon-web-services - Redshift Spectrum 的性能问题
我正在使用 Redhshift 频谱。我创建了一个外部表并在 S3 上上传了一个包含大约 550 万条记录的 csv 数据文件。如果在这个外部表上触发查询,大约需要 15 秒,而如果我在 Amazon redshift 上运行相同的查询,我会在大约 2 秒内得到相同的结果。在 AWS 声称它是非常高性能的平台的情况下,这种性能滞后的原因可能是什么。请建议使用频谱获得相同性能的解决方案。
amazon-redshift - 如何将镶木地板格式的特定列加载到 Redshift 光谱中?
我正在尝试将特定列加载到 Redshift Spectrum 中,但似乎数据是按位置加载的,这意味着我为列名输入的内容并不重要。
为了更具体:
假设我要加载的数据按位置存储在镶木地板中作为 A、B、C 列。我只想要 B 列,所以我写:
不幸的是,当我这样做时,它实际上将 A 的数据加载到 Foo.B
我需要一些额外的语法吗?我搜索了文档,但找不到任何东西。
谢谢!
amazon-s3 - Redshift Spectrum / 您尝试访问的存储桶必须使用指定的端点进行寻址
我在 S3 中创建了一个 parquet 文件,并在 Redshift / Spectrum 中创建了一个指向它的外部表。我的 S3 存储桶和 Redshift 集群都在 us-west-2 中。我在创建架构时指定了选项区域。
查询在 Athena 中运行顺畅。
然而,当我从 Redshift 客户端运行时,我得到了这个错误:
Amazon 无效操作:S3 查询异常 (Fetch)
细节:
错误:S3 查询异常(获取)代码:15001 上下文:由于内部错误,任务失败。HTTP 响应错误代码:301 消息:PermanentRedirect 您尝试访问的存储桶必须使用指定的端点进行寻址。>请将所有未来的请求发送到此端点。x-amz-request-id:XXXX 查询:XXXXX 位置:dory_util.cpp:689 进程:query0_40 [pid=XXX] ------------------------ ----------------------;
amazon-web-services - Amazon Redshift Spectrum:内存不足错误
我正在尝试使用 Amazon Redshift Spectrum 查询 S3 上的一些数据。我已经为 Parquet 中存储的数据创建了一个外部表(大约 5 GB 的数据)。
每次我尝试运行一个像下面这样的简单查询时,我都会收到错误消息:Out Of Memory
难道我做错了什么?我正在运行一个带有 2 个 dc1.large 类型节点的 Redshift 集群(每个节点 15 GiB 的内存!)
perl - 从 AWS 集群外的 Linux 服务器对 Redshift 数据库执行 COPY 命令
我想使用“COPY”命令将数据从亚马逊 S3 加载到 Redshift 数据库中。但我想从 AWS 集群外部的 Linux 机器中的 shell/perl 脚本执行它。我想知道是否有任何 Redshift 客户端可以安装在Linux机器上来帮我实现这个类似于SnowFlake的SnowSQL客户端吗?