我需要在 Hive 查询的 where 子句中进行嵌套选择。示例代码片段如下;
select *
from TableA
where TA_timestamp > (select timestmp from TableB where id="hourDim")
这是可能的还是我在这里做错了什么,因为在运行上述脚本时出现错误?!
为了进一步详细说明我正在尝试做的事情,有一个 cassandra 密钥空间,我发布了带有时间戳的统计信息。定期(例如每小时)此统计信息将使用 hive 进行汇总,一旦汇总,数据将与相应的小时分开存储。因此,当查询第二次(和连续运行)运行时,查询应该只在新数据上运行(即-timestamp > previous_execution_timestamp)。我试图通过将最新执行的时间戳存储在单独的配置单元表中来做到这一点,然后使用该值过滤掉原始统计信息。
这可以使用蜂巢来实现吗?!