1

我们正在开发一种将 hive 表移动到 teradata 的解决方案,我们正在使用mapr-sqoop1.4.2用于 teradata 1.0.5 的 cloudera 连接器。Mapr 版本是 M5。然而,性能波动很大,因为一些表在 15-20 分钟内从 Hadoop 导出到 Teradata,而其他表则需要 3-4 小时。没有。所有表的记录和文件大小都相同,没有。在 teradata 中用作主索引的列的唯一值。(没有倾斜)。

客户提出的问题是cloudera connector 1.0.5是否真的使用了FASTLOAD。已传输的数据在似乎未使用 FASTLOAD 的 DBQL 表(Teradata)中显示为插入语句。

那么我怎么能确定出口实际上是在使用 FASTLOAD 呢?

4

1 回答 1

0

Cloudera 连接器是“Teradata Hadoop 连接器”的包装器。尝试直接使用 Teradata 的连接器来比较性能:

http://developer.teradata.com/connectivity/articles/teradata-connector-for-hadoop-now-available

您的 Teradata DBA 应该能够从 Teradata 的 Viewpoint 工具的历史记录中告诉您在导出期间是否使用了 FastLoad。

于 2013-12-19T15:49:27.183 回答