0

我有一组约 100 个文件,每个文件中有 50k 个 ID。我希望能够使用这些文件中的 ID 对具有 Where In 子句的 Hive 进行查询。我也可以直接从 Groovy 执行此操作,但我认为如果我从 Hive 完成所有处理而不是引用外部 Set,代码会更简洁。这可能吗?

4

1 回答 1

0

创建一个描述文件格式的外部表,并将位置设置为包含文件的目录的 HDFS 路径。即制表符分隔的文件

create external table my_ids(
  id bigint,
  other_col string
)
row format delimited fields terminated by "\t"
stored as textfile
location 'hdfs://mydfs/data/myids'

现在您可以使用 Hive 访问这些数据。

于 2013-11-13T20:28:54.210 回答