问题标签 [spark-redshift]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

19 问题

0 投票

0 回答

12 浏览

amazon-redshift - 我们是否可以使用 debezium 在目标数据库（redshift）中创建每日快照作为行

我们是否可以使用 debezium 在目标数据库中创建表的每日快照作为行。

amazon-redshift debezium spark-redshift

2020-06-12T08:21:31.243

0 投票

1 回答

31 浏览

pyspark - 我想知道 spark-redshift 库是开源/免费使用还是必须通过 Databricks 获得许可

我想使用 spark-redshift 库使用以下代码将数据从 AWS S3 写入 AWS Redshift。在使用它之前，我想知道 spark-redshift 库是开源/免费使用还是必须通过 Databricks 获得许可。

pyspark amazon-redshift databricks spark-redshift

2020-09-10T11:36:33.490

0 投票

0 回答

40 浏览

.net - AWS、dotnet spark 和 redshift 不工作

嗨，我在使 redshift 和 dotnet spark 工作时遇到问题：

这是我用来让它在调试模式下工作的配置：

这是我的代码摘录：

请注意评论中我已经证明的许多配置：

我没有办法让这个工作。例外总是相同的：

拜托，hhhhheeeeeeeellllllllppppppppp！！！！

.net amazon-web-services apache-spark amazon-s3 spark-redshift

2020-09-27T16:39:11.580

0 投票

1 回答

1126 浏览

amazon-redshift - 如何在 AWS REDSHIFT 中使现有列不为空？

我已经通过胶水作业动态创建了一个表格，并且它成功地工作正常。但根据新要求，我需要添加一个生成唯一值的新列，并且应该是 redshift 中的主键。

我已经使用 rownum() 函数实现了相同的功能，并且工作正常。但是最新的要求是特定列应该是主键。

当我尝试这样做时，它要求该列不为空。你知道如何通过粘合作业使列不为空吗？或任何使其不为空的红移查询。我尝试了所有方法都没有运气。

amazon-redshift aws-glue aws-glue-data-catalog aws-glue-spark spark-redshift

2021-03-05T20:09:09.057

0 投票

1 回答

117 浏览

apache-spark - 使用 Spark 和 Redshift 时如何优化 ETL 数据管道以实现容错？

我正在使用 PySpark 编写一个大批量作业，该作业对 200 个表进行 ETL 并加载到 Amazon Redshift 中。这 200 个表是从一个输入数据源创建的。因此，只有当数据成功加载到 ALL 200 个表中时，批处理作业才会成功。批处理作业每天运行，同时将每个日期的数据附加到表中。

对于容错性、可靠性和幂等性，我当前的工作流程如下：

使用临时表。创建临时 Redshift 表CREATE TEMP TABLE LIKE <target_table>
将数据转换并加载到临时表中。
对 200 个其他表重复 1-2。
开始BEGIN交易。
使用将临时表数据复制到目标表中INSERT INTO <taget_table> SELECT * FROM <staging_table>
END交易
DROP所有临时表。

这样我可以保证如果第 3 步失败（这更有可能），我不必担心从原始表中删除部分数据。相反，我将简单地重新运行整个批处理作业，因为临时表在 JDBC 断开连接后被丢弃。

虽然它解决了大部分问题，但它并不优雅、不合时宜，而且会耗费额外的时间。我想如果 Spark 和/或 Redshift 提供标准工具来解决 ETL 世界中这个非常常见的问题。

谢谢

apache-spark amazon-redshift spark-redshift

2021-04-08T22:23:43.157

0 投票

1 回答

155 浏览

apache-spark - EMR PySpark 写入 Redshift：java.sql.SQLException：[Amazon](500310) 无效操作：会话是只读的

尝试在 EMR 集群上使用 PySpark 将数据写入 Redshift 时出现错误。

我得到的错误是：

我很感激任何帮助。谢谢！

apache-spark pyspark amazon-redshift amazon-emr spark-redshift

2021-05-25T21:41:24.610

0 投票

1 回答

160 浏览

apache-spark - 如何从本地安装的 spark 连接到 aws-redshift？

下载了必要的库以从本地安装的 spark 集群连接 redshift 并使用以下命令启动 pyspark，但我收到以下错误消息。

apache-spark pyspark amazon-redshift spark-redshift

2021-05-28T15:26:48.867

0 投票

0 回答

150 浏览

amazon-web-services - AWS Glue Job Redshift：从 AWS Glue 作业中的 Redshift 发出读取时间戳和时区

我有一个 AWS Glue 作业设置，它将使用 JDBC 连接从 AWS Redshift 读取数据。

来自 DBeaver 的列值：2020-05-08 12:36:53.000 +0530 来自 RedShift 查询编辑器的列值：2020-05-08 07:06:53+00

Redshift 中的数据类型：带有时区 的时间戳 AWS Glue 目录表中的数据类型：时间戳

我编写了一个爬虫作业，将该值映射到时间戳，但是当我尝试处理 AWS Glue 作业时，我遇到了异常。我尝试了各种。代码工作正常，我从 CSV 而不是 Redshift 表中读取值。从 CSV 读取时，爬虫作业映射的数据类型是字符串。我尝试将胶水目录表更改为字符串，但这也不起作用。

这个家伙也面临着类似的问题，但这个帖子已经很老了，没有有效的解决方案https://github.com/databricks/spark-redshift/issues/391

amazon-web-services amazon-redshift aws-glue spark-redshift

2021-12-26T17:24:58.990

0 投票

0 回答

14 浏览

spark-redshift - 使用带有布尔列的 pyspark 在 redshift 中写入数据帧时出错

在我的脚本中，该write方法PySpark获取一个数据帧并将其写入 a Redshift，但是在某些数据帧中，有一些布尔列返回错误，指出Redshift不接受位数据类型。

我的问题是因为它说应该是布尔值的是位。

编码：

桌子：

根 |-- namecolumn: boolean (nullable = true)

错误：

2022-02-10T18:36:02.887

1 2 3 4 5 6 7 8 9 10