我在 HDFS 的 data/2011/01/13/0100/file 中有我的数据,每个文件都包含制表符分隔的数据,比如名称、ip、url。
我想在 Hive 中创建一个表并从 hdfs 导入数据,表应该包含时间、名称、ip 和 url。
如何使用 Hive 导入这些?r 数据应该是其他格式,以便我也可以导入时间?
您需要创建表以将文件加载到其中,然后使用 LOAD DATA 命令将文件加载到 Hive 表中。有关要使用的精确语法,请参阅Hive 文档。
问候,杰夫
为此,您必须使用分区,请在此处阅读有关它们的更多信息:
您可以为此类数据创建外部表。
就像是:
CREATE EXTERNAL TABLE log_data (name STRING, ip STRING, url STRING) PARTITIONED BY (year BIGINT, month BIGINT, day BIGINT, hour BIGINT) 以'\t'结尾的行格式分隔字段存储为TEXTFILE位置'data'