sql - HiveQL Where 子句指向一组文件

Question

我有一组约 100 个文件，每个文件中有 50k 个 ID。我希望能够使用这些文件中的 ID 对具有 Where In 子句的 Hive 进行查询。我也可以直接从 Groovy 执行此操作，但我认为如果我从 Hive 完成所有处理而不是引用外部 Set，代码会更简洁。这可能吗？

score 0 · Accepted Answer

创建一个描述文件格式的外部表，并将位置设置为包含文件的目录的 HDFS 路径。即制表符分隔的文件

create external table my_ids(
  id bigint,
  other_col string
)
row format delimited fields terminated by "\t"
stored as textfile
location 'hdfs://mydfs/data/myids'

现在您可以使用 Hive 访问这些数据。

sql - HiveQL Where 子句指向一组文件

1 回答 1

Related

Reference