问题标签 [amazon-redshift-spectrum]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1060 浏览

amazon-redshift - 无法为 Amazon Redshift Spectrum 创建外部架构

尝试按照https://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html通过 athena 从 redshift 查询 s3 使用情况。

尝试在步骤 3 中创建架构时遇到错误:

错误:"line 1:8: no viable alternative at input 'create external' (service: amazonathena; status code: 400; error code: invalidrequestexception;"

关于我为什么遇到这个或如何解决它的任何建议?

0 投票
1 回答
423 浏览

json - 从 AWS Glue 表到 RedShift Spectrum 外部表的日期字段转换

我正在尝试将 JSON 数据集从 S3 转换为 Glue 表模式到 Redshift 频谱以进行数据分析。创建外部表时,如何转换 DATE 字段?

需要强调源数据来自 MongoDB 的 ISODate 格式。这里是 Glue 表格式。

在外部表中尝试了以下格式

Redshift Spectrum 或 Glue 中是否有解决 ISODate 格式的方法?还是建议回源转换ISOdate格式?

0 投票
2 回答
4193 浏览

amazon-redshift - 使用 Redshift Spectrum 读取 AWS Redshift 外部表中的数据

我在 AWS Redshift 集群中执行了以下操作以从 S3 读取 Parquet 文件。

然后

上述两个创建语句都成功。当运行以下查询时,它返回 0。

我是否缺少任何授予或访问权限以使其返回查询输出。

0 投票
1 回答
1448 浏览

amazon-redshift - 如何更改 Redshift Spectrum 中的外部表?

我想将数据分区添加到我的外部表中,但收到错误消息:ALTER EXTERNAL TABLE 无法在事务块内运行。

我删除了 BEGIN/END 事务,但仍然存在相同的错误。我在一些论坛上读到添加隔离级别可能会解决问题,但如果有人以前经历过这种情况,我想获得其他人的意见。

0 投票
1 回答
3531 浏览

amazon-web-services - 如何显示 Redshift Spectrum(外部架构)GRANTS?

这篇文章对于显示 Redshift GRANTS 很有用,但不会显示对外部表/架构的 GRANTS。

如何显示外部架构(和相关表)权限?

0 投票
1 回答
566 浏览

amazon-web-services - Redshift 中的 Unload 命令语法错误

当我尝试从频谱表中卸载数据时,出现语法错误:

“123”或附近的语法错误

0 投票
1 回答
1383 浏览

amazon-athena - Redshift Spectrum 性能对比 Athena

我在 S3 中有一个带有镶木地板文件并按日期分区的存储桶。

使用以下查询:

直接在 Athena 中运行该查询,不到 10 秒即可执行。但是当我在 Redshift 中运行相同的查询时,它需要 3 多分钟。它们都返回相同的正确值,在这种情况下,该分区中的行数少于 80,000。

我使用 AWS Glue 作为 Athena 和 Redshift 的元数据存储。

Redshift 的查询计划如下:

这个问题是 Redshift Spectrum 配置问题吗?Redshift 中的查询是否可能不会在 Athena 附近执行?

0 投票
3 回答
1823 浏览

aws-glue - 使用 AWS Glue 的 AWS Redshift 到 S3 Parquet 文件

我们有一个用例,我们在 Redshift 中处理数据。但我想在 S3 中创建这些表的备份,以便我可以使用 Spectrum 查询这些表。

为了将表从 Redshift 移动到 S3,我使用的是 Glue ETL。我为 AWS Redshift 创建了一个爬虫。Glue 作业将数据转换为 parquet 并将其存储在 S3 中,按日期分区。然后,另一个爬虫爬取 S3 文件以再次对数据进行编目。

我怎样才能消除第二个爬虫并在工作本身中做到这一点?

0 投票
4 回答
1339 浏览

amazon-web-services - Redshift Spectrum:查询匿名 JSON 数组结构

我在 S3 中有一个 JSON 结构数组,它被 Glue 成功抓取和编目。

我正在使用自定义分类器:

但是,当尝试从 Spectrum 查询时,它会返回:

当且仅当设置了 serde 属性“strip.outer.array”时,顶级 Ion/JSON 结构必须是匿名数组。文件中出现不匹配...

我在 Glue 目录表中手动设置了该 serde 属性,但没有任何改变。

不能通过 Spectrum 查询匿名数组吗?

0 投票
0 回答
1173 浏览

amazon-web-services - 胶水爬虫爬取redshift表时serde序列化lib为null

我试图创建一个抓取红移表的胶水爬虫。胶水爬虫成功执行并创建了一个外部表。但是当我查看表的元数据时,我发现“输入格式”、“输出格式”、“Serde 名称”并且“Serde 序列化库”为 null。因此,当我尝试使用爬虫表从 Athena 或 spark 读取数据时,我遇到了异常。以下是我使用 spark 读取表时遇到的异常。

Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table redshift_table. StorageDescriptor#InputFormat cannot be null for table: redshift_table (Service: null; Status Code: 0; Error Code: null;Request ID: null)

下面是胶水爬虫表属性的屏幕截图。

胶水爬行器表属性

请帮助我解决上述问题。