问题标签 [amazon-redshift-spectrum]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 使用 Athena 查询 Glue Catalog 表时出错
我在胶水目录中有一个表,它是在 s3 中解析 json 文件后由胶水爬虫创建的。现在,当我使用 Athena 查询此表时,我遇到了错误。关于这种情况的几件事 -
JSON 文件位于 S3 Glue 爬虫中,使用 json serder 在胶水目录中创建表
表包含嵌套数据类型,如数组和结构我在查询其他常规字段(不包括嵌套字段)时遇到相同的错误我能够在 EMR 中使用 Hive 查询相同的胶水目录表。尝试使用和不使用嵌套数据类型,它工作正常。
Amazon Athena 在执行此查询时遇到暂时性错误。等待几分钟并重试查询可能会解决问题。如果您仍然看到此问题,请联系客户支持以获取进一步帮助。我们对不便表示抱歉。您不会为此查询付费。
amazon - aws kinesis firehose 中的复制命令不起作用
我正在使用 Kinesis firehose,它在 S3 中加载数据并创建 Menifest 文件。
我正在从 Menifest 复制数据,但它抛出了一个错误。
我的清单文件:mydeliverystream-2018-07-22-08-01-06-bd895f6a-4fad-485
复制我正在使用 firehose 的命令
请注意; 我也尝试在 manifest 关键字之后添加分隔符。
我在复制命令上收到的错误包含语法错误。
我做错了什么,我该如何解决?
sql-server - 如果 SQL 中的不同列包含多行,如何识别人员或 ID
我有一个表,其中一个人在另一列中多次包含相同的值。
例如:
如果一个人多次包含相同的产品,那么在这种情况下,我想识别这样的人群并想给它某种类型的指标。
在上面的示例中,产品 10 出现了多次,所以我想为所有行的人提供一个指示符。
amazon-redshift - 扫描外部表(S3 数据)时 Redshift Spectrum 中的成本控制
Athena有一些默认服务限制,可以帮助限制S3 中大型数据湖上意外“失控”查询的成本。它们不是很好(基于~时间,而不是扫描的数据量),但它仍然很有帮助。
Redshift Spectrum怎么样?它提供的哪些机制可以轻松用于限制成本或降低在针对 S3 的单个失控查询中“意外”扫描过多数据的风险?解决这个问题的好方法是什么?
c# - 无需 ODBC/JDBC 即可查询数据的 Amazon Redshift C# 客户端
有什么方法可以在不使用 JDBC/ODBC 驱动程序的情况下从 C# 从 Amazon Redshift 获取数据?
amazon-redshift - 将 aclitem 数组转换为多行红移
我有一个数组,其列值为
{詹姆斯=UC/詹姆斯,亚当=C/詹姆斯,克里斯=UC /詹姆斯,约翰=U/詹姆斯}
上面的列值不是 json。它们是以下形式的字符串:
如何将上列转换为多行
hive - 由于配置单元版本不同,Parquet 模式不兼容
我们有一个运行 Hive 0.13.1 的 emr 服务器(我知道它很陈旧,但是这个集群有很多依赖项,因此我们无法摆脱它)无论如何,我们处理了类似的事情使用具有最新版本 hive 的不同 emr 集群在 parquet 中存储 10 TB 的 TSV 数据。这是促进数据处理的临时措施。
现在我们回到旧的 emr 做 TSV 到 parquet 的增量处理。我们使用 aws 红移光谱和胶水对这些数据进行查询。Glue 爬取数据所在的 s3 路径,从而为我们提供了一个可以使用的模式。
现在,旧 emr 处理的数据给我们带来了关于 Parquet 模式不兼容的问题。
当我们尝试读取由新配置单元和旧配置单元处理的数据组成的镶木地板数据时,我们得到的错误是,
[2018-08-13 09:40:36] error: S3 Query Exception (Fetch)
[2018-08-13 09:40:36] code: 15001
[2018-08-13 09:40:36] context: Task failed due to an internal error. File '<Some s3 path >/parquet/<Some table name>/caldate=2018080900/8e71ebbe-b398-483c-bda0-81db6f848d42-000000 has an incompatible Parquet schema for column
[2018-08-13 09:40:36] query: 11500732
[2018-08-13 09:40:36] location: dory_util.cpp:724
[2018-08-13 09:40:36] process: query1_703_11500732 [pid=5384]
我的预感是因为不同的蜂巢版本或者它可能是一个红移光谱错误。
有没有人遇到过同样的问题?
amazon-web-services - AWS Glue 跳过文件夹
我有一个将数据存储到 S3、转换数据并将数据转换为 Parquet 的过程,以便通过 Redshift Spectrum 进行查询。我有一个 Glue 爬虫来爬取我的数据集,我使用三个分区:年、月、日。我所有的文件都是这样存储的:
我有 2015 年到最后一天的数据,这给了我超过 1300 个分区键。
这是问题所在。因为几天前我开始看到来自爬虫的这条消息:
这样做的后果是2018年8月这个月查询时没有返回任何数据,这当然是很不幸的。
由于我所有的数据都存储在同一个 ETL 进程中的相同结构中,并且在爬取失败之前过程中没有任何内容,我很困惑为什么爬虫突然开始跳过上个月(月 = 8) . 我检查并检查了month = 8的表分区和文件夹分区之间是否有任何区别,但我找不到任何东西。
这是一个远景,但有人对为什么会发生这种情况有任何意见吗?
amazon-s3 - Redshift 显示外部表的 0 行,但在 Athena 中可以查看数据
我在 Redshift 中创建了一个外部表,然后将一些数据添加到指定的 S3 文件夹中。我可以在 Athena 中完美地查看所有数据,但我似乎无法从 Redshift 查询它。奇怪的是 select count(*) 有效,这意味着它可以找到数据,但它实际上不能显示任何内容。我猜这是某处的一些错误配置,但我不确定是什么。
一些可能相关的东西(我匿名了一些东西):
我的样本数据存储在 s3://mybucket/errors/2018-08-27-errors.parquet
此查询有效:
此查询不会:
sql - 在 athena 上工作时,数据在 redshift 外部表上显示为空
所以我试图在红移光谱上运行以下简单查询:
它返回 0 行(表中的所有行都为空)。但是,当我在 athena 上运行相同的查询时,它可以正常工作并返回结果。尝试了 msck 修复,但 athena 和 redshift 都使用相同的元存储,所以没关系。我也没有看到任何错误。
文件的格式是orc。
创建表查询是:
任何想法?