问题标签 [amazon-redshift]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
123 浏览

mysql - 从非常大的表中导出逗号分隔的数据

我正在尝试从具有大约 1300 万个条目的远程主机的一个非常大的表中获取所有数据到一个文本文件中。我尝试了以下命令,但一段时间后进程被杀死并显示一条名为“Killed”的消息。在控制台中。
mysql --user=username --password -h host -e "select * from db.table_name" >> output_file.txt
我的主要目标是将数据从 mysql 复制到 redshift,我通过获取所有数据以“,”分隔的 int 文本文件将其上传到 s3 并在 redshift 上执行COPY查询。
PS 对于小表,上述命令正常工作,但不适用于大表。

0 投票
4 回答
2708 浏览

sql - 从 Redshift 中的组中选择一个随机属性

我在表格中有一个数据集。

期望的输出:

在 MySQL 中,我会使用:

我不确定这可以在 Redshift 中完成,因为它不支持 group_concat 或任何 psql 组聚合函数,如 array_agg() 或 string_agg()。看到这个问题

另一种可行的解决方案是,如果我有办法从每个组中选择一个随机属性而不是 group_concat。这如何在 Redshift 中工作?

0 投票
6 回答
13093 浏览

sql - 尝试使用 Redshift SQL 计算累积的不同实体

我正在尝试在时间序列中获取 Redshift 中不同对象的累积计数。最简单的方法是使用COUNT(DISTINCT myfield) OVER (ORDER BY timefield DESC ROWS UNBOUNDED PRECEDING),但 Redshift 给出“不支持窗口定义”错误。

例如,下面的代码试图找到从第一周到现在每周的累积不同用户。但是,我收到“不支持窗口功能”错误。

目标是建立一个累积的时间序列,包含执行过某个操作的唯一用户。关于如何做到这一点的任何想法?

0 投票
1 回答
1253 浏览

performance - AWS Redshift 的负载测试

我是 AWS Redshift 的新手。虽然我已经阅读了这些概念,但我想知道如何在 RedShift 中进行负载测试。我对 GRINDER 非常满意,但对如何使用 RedShift 感到困惑。
我的基本要求是推送一定数量的行并测量查询和服务器性能。我一直在对已经部署 MySQL、Cassandra 等的云进行很多性能评估。请帮助我一些概念或工具来开始负载测试。

0 投票
5 回答
36881 浏览

mysql - 如何将 RedShift 上的表格卸载到单个 CSV 文件?

我想将一个表从 Amazon RedShift 迁移到 MySQL,但是使用“卸载”会生成多个难以直接导入 MySQL 的数据文件。

有什么方法可以将表卸载到单个 CSV 文件,以便我可以直接将其导入 MySQL?

0 投票
2 回答
1388 浏览

postgresql - 如何使 Microstrategy 在 Redshift / psql 表中使用用户模式?

我将 Amazon Redshift 与 MIcrostrategy 结合使用。在 Microstrategy 中,我可以正确查看公共模式中的所有表。然而,当我创建自己的模式时,Microstrategy 会“看到”表,但看不到其中的字段(即,当我单击表时,Microstrategy 不会显示其中的字段)。

任何想法我可能做错了什么/如何配置 Microstrategy 以使用“公共”以外的模式?

谢谢!

0 投票
2 回答
3038 浏览

amazon-web-services - RedShift 节点故障转移

我有一个 4 个节点的 RedShift 集群。

  1. 当其中一个节点宕机时,整个集群会变得不可用吗?
  2. 如果是 - 持续多长时间?
  3. 当集群恢复时 - 它是否返回到与故障前完全相同的点,或者数据可能从几个小时前回滚到 S3 快照?
  4. 我如何模拟这种情况来自己检查这种情况?

非常感谢!

0 投票
3 回答
10612 浏览

sql - 从 Redshift (PostgreSQL) 中的当前日期删除秒数

在 Amazon Redshift 中,我希望将当前时间戳转换为 0 秒。那是从这里开始的:

对此:

我尝试了以下方法:

我可能错过了一种非常简单的方法!请问有人有什么建议吗?

0 投票
1 回答
1758 浏览

sql - 在小于给定值的一列上选择具有最大运行总计的行

例如,对于如下表:

我需要找到 col_a / col_b 的值,其中 col_c 上的运行总计小于给定值。

到目前为止,我有:

这给了我最大的运行总计,但我还需要实现此 running_total 的行的 val (col_a/col_b)。

我正在使用 Amazon Redshift 进行此查询,与 mysql 不同,它不会让我将 val 放在外部 select 语句中,而无需在 val 上添加 group by 子句。我不能添加 group by 子句,因为这会改变查询的整个语义。

我找到了类似问题的解决方案 -获取具有列最大值的行

大多数情况下,这些解决方案建议,我们加入同一个表,然后匹配列的值,但是计算 running_total 列并对其进行连接,我必须再次计算它吗?这听起来相当昂贵。

0 投票
1 回答
12076 浏览

sql - 使用 Amazon RedShift 透视表

我在 Amazon RedShift 中有几个表,它们遵循几个维度列和一对指标名称/值列的模式。

我正在寻找一种将数据展开/旋转为每个唯一维度集一行的形式的好方法,例如:

生成执行这种展开的查询的好模式是什么?

Amazon RedShift 基于 ParAccel 并支持 PostgreSQL 8.0.2 ,它没有crosstab、或.unnestpivotunpivot