我在 HDFS 中有一个目录,其中.csv
具有固定结构和列名的文件将在每天结束时转储,可能如下所示:
我有一个配置单元表,应该在每天开始时附加新数据,带有前一天文件中的数据。我如何做到这一点。
.csv
.csv
问问题
153 次
2 回答
1
我可以建议使用 CRON Jobs。您创建一个更新表的脚本,并配置一个 CRON 作业以在一天中的特定时间(对于您的情况是一天的开始)执行该脚本,然后表将自动更新。
PS:这个解决方案只能在你的服务器投入生产的情况下应用,我的意思是 CRON 作业应该在运行 24/24 的服务器中使用,否则,你应该使用 Anacron。
于 2020-03-12T12:22:44.497 回答
1
在 HDFS 中该目录的顶部构建 Hive 表。将新文件转储到表位置后,从该表中选择将选择新文件。我建议更改转储文件以写入日期子文件夹并按日期创建分区表的过程。在此之后,您只需要在选择表之前运行恢复分区命令。
于 2020-03-12T18:22:16.147 回答