Greenplum 说它具有并行数据加载功能。我对它的工作原理有疑问。请务必向我解释。我知道记录是并行读取的,但我不明白并行写入是如何完成的。并行写入是在同一个数据库上完成还是在不同的数据库(段)上完成?请解释一下。谢谢
问问题
609 次
3 回答
1
并行写入在不同的段上完成,数据由 ETL 服务器上运行的 1 个或多个 gpfdist 实例提供。我怀疑魔法的一个重要部分distributed by
是用于将数据库的行分散到段服务器的扩展。
于 2012-11-21T20:14:49.843 回答
0
在 gpfdist 或 gphdfs 的帮助下,可以在段级别完成并发读/写。
例如,如果您想将数据卸载到磁盘上的文件,您可以使用连接到多个 gpfdist 位置的可写外部表,并且每个数据段会将数据并行写入这些目的地。
于 2013-02-14T00:38:55.940 回答
0
约翰是对的。
默认情况下,每个 gpfdist 实例将处理 4 个并发连接。加载时,每个有连接的段将读取它们的“块”数据并根据表的分布散列进行处理。
见:https ://blog.2ndquadrant.com/parallel_etl_with_greenplum/
于 2017-08-30T13:16:52.440 回答