4

是否有任何 Spring 项目提供用于插入或使用 Greenplum 的模板或实用程序?

我知道一种方法是使用 Spring Batch 让一个 tasklet 调用 Greenplum gpload 实用程序,然后它将指定的文件插入数据库。

然而,考虑到 Spring Data 和 Spring XD 项目都旨在抽象数据访问和处理大数据需求这一事实,似乎应该为这个需求定制一些东西。鉴于 Pivotal 现在与 GreenPlum 和 Spring 的关系如此密切,情况尤其如此。

如果有人有任何使用 Spring 和 Greenplum 的经验并且可以提供任何指示或最佳实践,我们将不胜感激。

4

2 回答 2

4

我与 Spring Batch 和 Greenpulm 一起工作。只需使用 PostgresSQL jdbc 驱动程序,它就可以透明地工作,因为 Greenplum 数据库基于 PostgreSQL

于 2014-01-14T19:57:03.263 回答
1

这是已经出现了好几次的事情。很久以前在这方面已经完成了一些工作,但我们还没有将该代码移到公共存储库中——现在是将这些代码放入 github 的好时机。

这是描述可用内容的文档。

https://drive.google.com/file/d/0B2yhsfF9zZ71VTV2bzN5TnpzMGM/edit?usp=sharing

那里可能不明显的是(我记得)我们能够在 Java 中以编程方式使用 gpfdist 与使用命令行。我会让这篇文章的作者看看这个帖子发表评论。

这项工作没有调用 Greenplum gpload 实用程序的 tasklet,但这当然是个好主意。我们刚刚完成了将文件写入 HDFS 的 FTP tasklet 的第一次通过,这应该是一个很好的开始。

我很想听听您在这方面的更多想法。一个想法是使用批处理分区作业来使位于 xd-container 节点的本地文件系统上的文件可以并行发生。

期待你的回复。

干杯,马克

于 2014-01-24T14:09:40.053 回答