hadoop - 匹配数千个查询中的海量数据记录

Question

我有很多数据记录。（大约 15 亿条）和很多查询。（大约 1 万条）。

每条记录可以匹配多个查询。（可以通过对数据记录评估查询来确定）

记录存储在分布式数据库中。每条记录都有一个字段来存储与该数据记录匹配的查询的 ID。

我可以在大约 15 分钟内扫描所有记录。（但对数据不做任何事情）。

对于每条记录。我想用它匹配的查询 ID 标记它。没有很大的延迟（例如：1小时）。有没有一个好的算法来做到这一点？在查询上迭代每个查询不是解决方案。我认为需要某种索引。请帮忙！谢谢！

score 0 · Accepted Answer

Apache Pig 默认开启了多查询。如果您的查询共享相同的数据源，那么 Pig 将并行执行它们，因此输入数据只读取一次。

1 回答 1