我有一份在 hadoop 集群之间传输配置单元表的工作。我所做的是从源 hadoop 集群下载 orc 文件,然后使用以下命令将 orc 文件上传到目标 hdfs 集群。
hadoop fs -get
hadoop fs -put
在spark应用程序中可以通过以下方式读取目标hadoop clustr中的orc文件:
df = sqlContext.sql('select * from orc.`path_to_where_orc_file_is`')
但是,目标 hadoop 集群中的 hive 内没有对应的表。
有没有一种方法可以在不指定 ddl 或模式的情况下从 hdfs 中的 orc 文件在 hive 中创建表?由于 orc 文件本身包含架构信息。
我问这个问题的原因是因为原始配置单元表的架构非常嵌套并且有很多字段。
目前我能想到的唯一解决方案是在 spark 中读取这些 orc 文件,并使用 saveAsTable 选项将它们写出来,如下所示:
dfTable.write.format("orc").mode(SaveMode.Overwrite).saveAsTable("db1.test1")