0

我在 HDFS 中有一个 Hive 外部表 X。来自 RDBMS 的文件将不断到达表 X 的文件夹位置。

上周,RDBMS 中添加了一个新列,并且文件与新列的数据一起进入外部表。

我知道在这种情况下我应该向 Hive 外部表添加一个新列。

但是,如何防止带有新列的文件进入我的外部文件夹。?

或者至少我如何认识到新专栏即将到来?

4

2 回答 2

2

您可以编写一个 Bash 脚本来检查今天文件中的列数(我假设您的文件按日期分区)。

expected_n_columns=10
DATE=`date +%Y-%m-%d`
n_commas=`hadoop fs -cat /X/$DATE/* | head -n 1 | tr -cd , | wc -c`
n_columns=`expr $n_commas + 1`
echo "today's file had $n_columns columns."
于 2016-01-27T03:48:30.970 回答
1

任一来源团队都需要与您沟通他们正在进行的更改。如果您的企业有变更控制和审查委员会,那么您需要参与您从中获取数据的应用程序的变更控制审查。

如果无法进行更改控制,作为数据集成过程的一部分,您需要检查数据库表是否有任何更改。如果有更改,则该过程应通知更改。

如果您不必担心新列,则必须使用“select from”从源获取数据,这不会获取新列的数据。

最后,这取决于你想如何解决它。没有开箱即用的解决方案,这是典型的数据集成问题,您需要根据您的组织实践定制解决方案。

于 2016-01-27T03:33:08.537 回答