1

我刚开始使用 Sqoop Hands-on。我有一个问题,假设我在数据库中有 300 个表,我想对这些表执行增量加载。我知道我可以使用附加模式或上次修改的方式进行增量导入。

但是,如果工作中唯一变化的是表名、CDC 列和最后一个值/更新值,我是否必须创建 300 个工作?

有没有人尝试使用相同的作业并将上述内容作为参数传递,该参数可以从循环中的文本文件中读取,并为所有表并行执行相同的作业。

行业标准和建议是什么?

此外,有没有办法截断并重新加载非常小的 hadoop 表,而不是执行 CDC 并稍后合并表?

4

1 回答 1

0

有 import-all-tables “将表从数据库导入 HDFS” 但是它不会提供更改每个表的 CDC 列的方法。另见sqoop 导入多个表

没有截断,但可以通过以下来实现。--delete-target-dir "如果存在则删除导入目标目录"

于 2016-08-18T16:45:40.647 回答