问题标签 [amazon-redshift-spectrum]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-redshift - 无法为 Amazon Redshift Spectrum 创建外部架构
尝试按照https://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html通过 athena 从 redshift 查询 s3 使用情况。
尝试在步骤 3 中创建架构时遇到错误:
错误:"line 1:8: no viable alternative at input 'create external'
(service: amazonathena; status code: 400; error code: invalidrequestexception;"
关于我为什么遇到这个或如何解决它的任何建议?
json - 从 AWS Glue 表到 RedShift Spectrum 外部表的日期字段转换
我正在尝试将 JSON 数据集从 S3 转换为 Glue 表模式到 Redshift 频谱以进行数据分析。创建外部表时,如何转换 DATE 字段?
需要强调源数据来自 MongoDB 的 ISODate 格式。这里是 Glue 表格式。
在外部表中尝试了以下格式
Redshift Spectrum 或 Glue 中是否有解决 ISODate 格式的方法?还是建议回源转换ISOdate格式?
amazon-redshift - 使用 Redshift Spectrum 读取 AWS Redshift 外部表中的数据
我在 AWS Redshift 集群中执行了以下操作以从 S3 读取 Parquet 文件。
然后
上述两个创建语句都成功。当运行以下查询时,它返回 0。
我是否缺少任何授予或访问权限以使其返回查询输出。
amazon-redshift - 如何更改 Redshift Spectrum 中的外部表?
我想将数据分区添加到我的外部表中,但收到错误消息:ALTER EXTERNAL TABLE 无法在事务块内运行。
我删除了 BEGIN/END 事务,但仍然存在相同的错误。我在一些论坛上读到添加隔离级别可能会解决问题,但如果有人以前经历过这种情况,我想获得其他人的意见。
amazon-web-services - 如何显示 Redshift Spectrum(外部架构)GRANTS?
这篇文章对于显示 Redshift GRANTS 很有用,但不会显示对外部表/架构的 GRANTS。
如何显示外部架构(和相关表)权限?
amazon-web-services - Redshift 中的 Unload 命令语法错误
当我尝试从频谱表中卸载数据时,出现语法错误:
“123”或附近的语法错误
amazon-athena - Redshift Spectrum 性能对比 Athena
我在 S3 中有一个带有镶木地板文件并按日期分区的存储桶。
使用以下查询:
直接在 Athena 中运行该查询,不到 10 秒即可执行。但是当我在 Redshift 中运行相同的查询时,它需要 3 多分钟。它们都返回相同的正确值,在这种情况下,该分区中的行数少于 80,000。
我使用 AWS Glue 作为 Athena 和 Redshift 的元数据存储。
Redshift 的查询计划如下:
这个问题是 Redshift Spectrum 配置问题吗?Redshift 中的查询是否可能不会在 Athena 附近执行?
aws-glue - 使用 AWS Glue 的 AWS Redshift 到 S3 Parquet 文件
我们有一个用例,我们在 Redshift 中处理数据。但我想在 S3 中创建这些表的备份,以便我可以使用 Spectrum 查询这些表。
为了将表从 Redshift 移动到 S3,我使用的是 Glue ETL。我为 AWS Redshift 创建了一个爬虫。Glue 作业将数据转换为 parquet 并将其存储在 S3 中,按日期分区。然后,另一个爬虫爬取 S3 文件以再次对数据进行编目。
我怎样才能消除第二个爬虫并在工作本身中做到这一点?
amazon-web-services - Redshift Spectrum:查询匿名 JSON 数组结构
我在 S3 中有一个 JSON 结构数组,它被 Glue 成功抓取和编目。
我正在使用自定义分类器:
但是,当尝试从 Spectrum 查询时,它会返回:
当且仅当设置了 serde 属性“strip.outer.array”时,顶级 Ion/JSON 结构必须是匿名数组。文件中出现不匹配...
我在 Glue 目录表中手动设置了该 serde 属性,但没有任何改变。
不能通过 Spectrum 查询匿名数组吗?
amazon-web-services - 胶水爬虫爬取redshift表时serde序列化lib为null
我试图创建一个抓取红移表的胶水爬虫。胶水爬虫成功执行并创建了一个外部表。但是当我查看表的元数据时,我发现“输入格式”、“输出格式”、“Serde 名称”并且“Serde 序列化库”为 null。因此,当我尝试使用爬虫表从 Athena 或 spark 读取数据时,我遇到了异常。以下是我使用 spark 读取表时遇到的异常。
Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table redshift_table. StorageDescriptor#InputFormat cannot be null for table: redshift_table (Service: null; Status Code: 0; Error Code: null;Request ID: null)
下面是胶水爬虫表属性的屏幕截图。
请帮助我解决上述问题。