问题标签 [amazon-redshift]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - 将数据从 Amazon S3 复制到 Redshift 并避免重复行
我正在将数据从 Amazon S3 复制到 Redshift。在此过程中,我需要避免再次加载相同的文件。我的 Redshift 表没有任何独特的限制。有没有办法使用复制命令来实现这一点?
http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html
我尝试添加唯一约束并将列设置为主键,但没有运气。Redshift 似乎不支持唯一/主键约束。
sql - 使用 SQL Workbench/J 和 amazon aws redshift 进行 UNPIVOT
我正在尝试在桌子上使用 unpivot。我正在使用 Workbench/J 作为亚马逊 redshift 的客户端。以下 select 语句不起作用:
我收到以下错误:
错误:“for”位置或附近的语法错误:62 [SQL 状态 = 42601]
如果可能的话,我想使用 UNPIVOT 而不是 UNION 并且它不会将 UNNEST 识别为函数。
sql - 亚马逊红移中的多对多交集表
如何在普通 sql 中执行类似于多对多基数表的最佳方法。
示例 - 三个表:Product(id identity, name varchar(max)), Sale(id identity,customer varchar(max)), SalesLine(id identity, product integer references product, sale integer references sale):
在 postgresql 中,类似的东西currval
很有帮助,但这在 amazon redshift 中不可用。
我在想也许需要其他一些范例?
mysql - 数据库更新更快?
我们正在尝试将我们的数据库(mysql)移动到 amazon redshift(数据仓库),并且在更新仓库数据库时遇到了问题。我们已经在我们的数据库上启用了常规日志记录,然后我们正在从 redshift 的常规日志中重播所有这些查询。所有更新查询大约需要 6-7 秒。我正在寻找某种方式以更快的速度执行这些更新?Amazon redshift 在内部使用 postgre 数据库,如果任何为 redshift/postgre 本身解决了这个问题的人都可以提出解决方案,那就太好了。尽管使更新更快的通用方法也会有所帮助。我尝试过的一个解决方案是将所有更新合并到一组删除和插入中。因此,单个表上的所有更新都将转换为单个删除查询,其中包含组合 where 子句和单个批量插入查询。
jdbc - 使用 jdbc mysql vs postgresql 将谷歌电子表格连接到亚马逊红移
我有一个支持将 postgresql 客户端与 jdbc 连接的 amazon redshift db
google apps 脚本支持使用 jdbc 连接到 db,但只能使用 mysql、ms sql 和 oracle 协议,而不是 postgresql。如果我尝试,毫不奇怪我会收到错误:
'连接 URL 使用不受支持的 JDBC 协议。'
查看一些谷歌论坛,这已经是几年来谷歌没有回应的问题。
有什么解决方法吗?
谢谢
amazon-web-services - Hive——跨文件拆分数据
有没有办法指示 Hive 将数据拆分为多个输出文件?或者可能限制输出文件的大小。
我打算使用 Redshift,它建议将数据拆分为多个文件以允许并行加载http://docs.aws.amazon.com/redshift/latest/dg/t_splitting-data-files.html
我们在 hive 中预处理所有数据,我想知道是否有一种方法可以创建,比如 10 个 1GB 的文件,这可能会使复制到 redshift 的速度更快。
我正在查看https://cwiki.apache.org/Hive/adminmanual-configuration.html和https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties但我找不到任何东西
jdbc - AWS Redshift JDBC 插入性能
我正在编写一个概念验证应用程序,该应用程序旨在以每秒约 1000 条消息的速度获取实时点击流数据并将其写入 Amazon Redshift。
我正在努力获得与其他人声称的性能类似的东西(例如,here)。
我正在运行一个具有 2 个 dw.hs1.xlarge 节点(+ 领导者)的集群,并且执行负载的机器是与运行 64 位 Ubuntu 12.04.1 的 Redshift 集群位于同一 VPC 上的 EC2 m1.xlarge 实例。
我正在使用 Java 1.7(来自 Ubuntu 存储库的 openjdk-7-jdk)和 Postgresql 9.2-1002 驱动程序(主要是因为它是 Maven Central 中唯一让我的构建更容易的驱动程序!)。
我已经尝试了这里显示的所有技术,除了最后一个。
我不能使用COPY FROM
,因为我们想“实时”加载数据,所以通过 S3 或 DynamoDB 暂存它并不是一个真正的选择,而且 RedshiftCOPY FROM stdin
出于某种原因不支持。
这是我的日志的摘录,显示单个行以大约 15/秒的速度插入:
我究竟做错了什么?我还可以采取哪些其他方法?
amazon-web-services - 什么样的数据会存储在数据仓库中?
查看 Amazon Redshift 等服务,该服务旨在存储 PB 级数据。什么形式的数据应该存储在这里?日志,原始数据?
postgresql - Amazon Redshift 如何从 s3 复制并设置 job_id
Amazon Redshift 提供了使用“复制”命令从 s3 对象加载表数据的能力。是他们使用复制命令的一种方式,而且还为每个插入的行设置了额外的“col=CONSTANT”。
我想在每个复制的行上设置一个 job_id (不在源数据中),我认为当“复制”获取时,必须执行几百万次插入以使每一行都有一个作业属性,这将是一种耻辱我 99% 的路都有更好的表现。
也许有更聪明的解决方案?
mysql - 如何避免数字数据溢出
我有一个在我们的旧 MySQL 数据库中运行良好的查询,其中有一个检查:
现在我们已经迁移到 Redshift,查询失败:
两列都是 type bigint
。在不添加列(仅检查一列或另一列)的情况下运行查询时,查询执行良好。我假设有行column_x + column_y
大于bigint
.
这里有什么解决方法?