0

我有很多数据记录。(大约 15 亿条)和很多查询。(大约 1 万条)。

每条记录可以匹配多个查询。(可以通过对数据记录评估查询来确定)

记录存储在分布式数据库中。每条记录都有一个字段来存储与该数据记录匹配的查询的 ID。

我可以在大约 15 分钟内扫描所有记录。(但对数据不做任何事情)。

对于每条记录。我想用它匹配的查询 ID 标记它。没有很大的延迟(例如:1小时)。有没有一个好的算法来做到这一点?在查询上迭代每个查询不是解决方案。我认为需要某种索引。请帮忙!谢谢!

4

1 回答 1

0

Apache Pig 默认开启了多查询。如果您的查询共享相同的数据源,那么 Pig 将并行执行它们,因此输入数据只读取一次。

于 2012-09-06T09:30:34.883 回答