4

我正在尝试查找有关 AWS Data Pipeline 支持的数据源的文档。我需要做的是将 SQL Server RDS 数据导出到 S3。我发现大量文档说 Data Pipeline 可以使用 RDS 作为源,但我看到的每个示例都仅适用于 MySQL RDS。

有人有使用 Data Pipeline 和 SQL Server RDS 的经验吗?如果是这样,您使用什么数据节点连接到 SQL Server RDS(例如 MySqlDataNode、SqlDataNode)?

最终目标是将数据从 SQL Server RDS 移动到 AWS Red Shift。

谢谢

4

2 回答 2

1

为此,我们放弃了使用 Data Pipeline。我建议为此使用普通的 ETL 工具。如果您正在运行任何 Windows 服务器,那么 SSIS 可能是最佳选择,否则请查看 Pentaho 或 Talend。

您有任何非 ASCII 数据吗?将数据从 SQL Server 的 UTF16-LE 转换为 UTF8 是我最头疼的问题。我在我的博客(http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html)上写了一些解决方案。

于 2014-05-23T12:55:46.610 回答
0

数据管道似乎仍然只内置了对 MySQL RDS 的支持。

一种选择是启动 EMR 集群并使用 sqoop。您可以使用 sqoop 导入 s3 并使用 COPY 命令(或数据管道)将其直接加载到 Redshift。

有一个数据管道 EMRResource。您需要创建一个引导任务,在 master 上下载和设置 sqoop 并获取相关的 jdbc 驱动程序。

EMRActivity 似乎也需要一个 jar 文件,而我只想sqoop从主机上的 shell 脚本运行命令。我不确定这有多么容易解决。也许是带有 EMRResource 的 ShellCommandActivity?

于 2015-09-18T06:45:22.890 回答