Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一组约 100 个文件,每个文件中有 50k 个 ID。我希望能够使用这些文件中的 ID 对具有 Where In 子句的 Hive 进行查询。我也可以直接从 Groovy 执行此操作,但我认为如果我从 Hive 完成所有处理而不是引用外部 Set,代码会更简洁。这可能吗?
创建一个描述文件格式的外部表,并将位置设置为包含文件的目录的 HDFS 路径。即制表符分隔的文件
create external table my_ids( id bigint, other_col string ) row format delimited fields terminated by "\t" stored as textfile location 'hdfs://mydfs/data/myids'
现在您可以使用 Hive 访问这些数据。