0

我有一个场景,我从一个数据库(postgres)中获取数据并将数据加载到另一个数据库中的表中(Redshift)

无论如何在水壶中安排这项工作?

它是一个简单的insert into redshift select * from postgres

4

1 回答 1

1

使用表输出步骤可能会非常缓慢,因为 Redshift 针对批量插入进行了优化,而不是逐行插入。AFAIK,Kettle 中没有用于批量插入 Redshift 的步骤/插件。您可以做的是在 Shell 步骤中创建一个脚本:

  1. 将数据从 Postgres 转储到文件
  2. 将数据复制到 S3:https ://anotherreeshu.wordpress.com/2015/11/30/loading-data-to-aws-s3-bucket-pentaho-data-integration/
  3. 将数据从 S3 插入 Redshift:https ://anotherreeshu.wordpress.com/2015/12/11/loading-data-from-s3-to-redshift-pentaho-data-integration/
于 2016-08-09T19:47:40.273 回答